代码之家 › 专栏 › 技术社区 › Adam Hughes

数字集相似性评分算法

statistics algorithm

Adam Hughes · 技术社区 · 17 年前

两个集合的相似性有点主观,因此该算法实际上只需要区分好匹配和坏匹配。我们有很多历史数据,所以我想通过自动扔掉不接近的集合,并尝试将“最佳”匹配放在列表的顶部,来缩小用户需要查看的天数。

编辑 : Niles 产生了相当好的结果,但在比较温度时生成的数字无法与其他数据(如风速或降水量)生成的数字进行比较,因为数据的规模不同。一些非天气数据非常大,因此均方误差算法生成的数字为数十万,而使用温度生成的数字为数十或数百。

11 回复 | 直到 9 年前

Nils Pipenbrinck 17 年前

我认为均方误差度量可能适用于天气比较等应用。它很容易计算,并且给出了有意义的数字。

对于不受时间限制的值,甚至是未排序的多维分散数据,这有点困难。选择一个好的距离度量成为分析此类数据的一部分。

Folkert van Heusden Folkert van Heusden 17 年前

使用皮尔逊相关系数。我找到了如何在SQL查询中计算它的方法,可以在下面找到: http://vanheusden.com/misc/pearson.php

RossFabricant 17 年前

在金融领域,他们使用贝塔系数来衡量两组数字之间的相关性。例如,Beta可以回答这样一个问题:“在过去一年中,标准普尔500指数上涨5%的一天,IBM的价格会上涨多少?”它涉及的是上涨的百分比,因此2系列可以有不同的规模。

在我的示例中,Beta是协方差(IBM,标准普尔500)/方差(标准普尔500)。

维基百科有页面解释 Covariance Variance ,及测试版: http://en.wikipedia.org/wiki/Beta_(finance)

leppie 17 年前

看看统计网站。我认为你在寻找相关性。

Corbin March 17 年前

例如,我假设您正在测量温度、风和精度。我们将这些项目称为“功能”。因此,有效值可能是:

温度:-50到100华氏度(我在美国明尼苏达州)

现在,将每个测量想象为多维空间中的一个点。此示例测量三维空间(温度、风、精度)。好的是,如果我们添加更多的功能,我们只需增加空间的维度,但数学保持不变。无论如何,我们想找到最接近当前点的历史点。最简单的方法是 Euclidean distance . 因此,测量当前点到每个历史点的距离,并保持最接近的匹配:

for each historicalpoint

    distance = sqrt(
        pow(currentpoint.temp - historicalpoint.temp, 2) + 
        pow(currentpoint.wind - historicalpoint.wind, 2) +
        pow(currentpoint.precip - historicalpoint.precip, 2))

    if distance is smaller than the largest distance in our match collection
        add historicalpoint to our match collection
        remove the match with the largest distance from our match collection

next

kd-trees 或 r-trees . 如果你有很多数据,将你当前的观察结果与每一个历史观察结果进行比较会太慢。树木可以加快你的搜索速度。你可能想看看 Data Clustering 和 Nearest Neighbor Search

干杯

Michael Dorfman 17 年前

与统计学家交谈。

“两个集合的相似性有点主观” ,但这根本不是主观的——这是一个为你的问题领域确定适当的相似性标准的问题。

在这种情况下,与专业人士交谈要比询问一群程序员要好得多。

Marcin 17 年前

首先,问问自己这些是集合还是有序集合。

Adam Hughes 17 年前

我在我的应用程序中确实实现了一个解决方案,但我想看看是否有更好或更“正确”的解决方案。对于历史上的每一天,我都会执行以下操作:

function calculate_score(historical_set, forecast_set)
{
    double c = correlation(historical_set, forecast_set);
    double avg_history = average(historical_set);
    double avg_forecast = average(forecast_set);
    double penalty = abs(avg_history - avg_forecast) / avg_forecast
    return c - penalty;
}

然后我将所有结果从高到低排序。