![]() |
1
1
计算并跟踪 standard deviation 有一段时间。在您有了一个合理的积压工作之后,您可以通过查看偏离平均值的标准偏差来忽略异常值。更好的是,如果你有时间,你可以利用这些信息做一些事情 naive Bayesian classification . |
![]() |
2
1
这是一个很好的问题,但可能会引起相当多的讨论,因为答案可能会非常不同。这取决于
看见 http://en.wikipedia.org/wiki/Normal_distribution http://en.wikipedia.org/wiki/Gaussian_function 这些页面有足够的链接来帮助编程,也取决于您使用的语言,可能有函数和/或插件可用于帮助编程
我认为第二种选择对你来说是正确的。使用标准偏差(很多语言都包含一个函数)可能是一个更简单的选择,这只是一个测量值偏离x之前值的平均值有多远的方法,我将标准偏差选项放在选项1和选项2之间 |
![]() |
3
0
您可以测量现有人群中的标准偏差,并排除平均值大于1或2个标准偏差的人群?
|
![]() |
4
0
或者用价格的移动平均值代替实际价格。 |
![]() |
5
0
引用 here : 统计学家设计了几种检测异常值的方法。所有方法首先量化异常值与其他值的距离。这可以是离群值与所有点的平均值之间的差值、离群值与剩余值的平均值之间的差值或离群值与下一个最近值之间的差值。接下来,将该值标准化,方法是除以一些分散度量,例如所有值的SD、剩余值的SD或数据范围。最后,计算一个P值来回答这个问题:如果所有的值都是从一个高斯总体中抽样的,那么从其他值中随机获得离群值的几率有多大?如果P值很小,则得出结论,异常值与其他值的偏差在统计上是显著的。 你知道,谷歌是你的朋友 |
![]() |
6
0
关于你的具体问题 策划 修剪方法 如果您真的关心一天价格的真最大值和真最大值,那么您必须将异常值作为异常值处理,并适当排除它们,可能使用之前提出的异常值测试之一(数据点比下一个点多x%,或最后n个点,或离日平均值超过5个标准差)。另一种方法是查看异常值之后发生的情况。如果它是一个异常值,那么它将有一个急剧上升,然后是急剧下降。 然而,如果你关心整体趋势,绘制每日平均值、中位数、5%和95%的百分位数将很好地描绘历史。 基于对问题的分析 . 如果你关心中位数或百分位数,它们可能是不相关的。 |
![]() |
Madison Ell · R列表不断返回NAs,我该如何修复? 2 年前 |
![]() |
Crawford Patten · 如何获得整数列表的四分位数 2 年前 |
![]() |
Caledonian26 · 向qnorm图中添加直线 3 年前 |
![]() |
remo · R:带子集的T-统计量 3 年前 |
![]() |
chiuki · 具有上限的int列表的再分配 3 年前 |
![]() |
Hamid · 从Javascript(节点)调用R函数 7 年前 |