|
|
1
4
Statistics::Descriptive::Discrete 允许您以类似于Statistics::Descriptive的方式执行此操作,但已针对大型数据集进行了优化。(例如,文档报告内存使用率提高了两个数量级(100倍)。 |
|
|
2
5
你不能做一个准确的stdev和中位数,除非你把整个事情都保存在内存中。 或 运行两次数据。 更新 虽然您不能在一次传递中执行准确的stdev,但有一个近似的一次传递算法,链接在对该答案的注释中。 剩下的部分在3-5行Perl中是完全微不足道的(不需要模块)。 stdev/median也可以在2次传球中完成(我刚刚推出了一个完全按照您描述的方式完成的脚本,但出于IP原因,我很确定不允许将其作为示例发布给您,抱歉) 样例代码:
|
|
|
3
4
为什么不直接向数据库询问要计算的值呢? 除此之外,mysql的功能 GROUP BY (Aggregate) functions . 对于缺失的功能,您只需要 a little SQL . |
|
|
4
4
PDL 可能提供一个可能的解决方案: 看看前面的这个问题,答案是 means, std dev, etc . 下面是代码的相关部分:
|
|
|
5
1
@dvk:这里计算平均值和标准偏差的一次通过算法 http://en.wikipedia.org/wiki/Algorithms_for_calculating_variance#On-line_algorithm 不是近似值,并且比您给出的示例更具数值鲁棒性。参见该页的参考文献。 |
|
|
6
0
这在很大程度上是未经测试的,所以小心使用。因为我的记忆力不好,我检查了算法 Wikipedia . 我不知道从数字流中计算中位数的算法,但这并不意味着没有。
|
|
|
7
0
我知道这是4年前的事了,但如果有人感兴趣,现在 module 为了节省内存 近似 统计样本分析。它的接口通常遵循统计学的接口::描述性和协同。 它将样本划分为对数间隔,并且只保留命中计数。因此,引入了一个固定的相对误差(精度可以在new()中进行调整),但是在不使用大量内存的情况下,可以处理大量数据。 |
|
|
RSW · Python-检查序列中的最后一个值是否相对高于其余值 1 年前 |
|
|
mayen · Z-Score作为差异值的度量 1 年前 |
|
|
John Philips · Python中的重命名函数 1 年前 |
|
|
Yneedtobeserious · 给定的数据点,形成它们的关系 1 年前 |
|
|
Idan Hazan · 转换总和为1的列表并保持值之间的关系[重复] 1 年前 |
|
|
Jimmy3421 · 为什么pd.cut会产生NaN值 2 年前 |
|
|
JoRayMe · 有没有办法从数据数组中识别浮点数中的小数位数? 2 年前 |