代码之家 › 专栏 › 技术社区 › mornindew

基于时间的聚类推荐算法

hierarchical-clustering data-science k-means algorithm

mornindew · 技术社区 · 7 年前

我对基于时间的集群不是很了解,我想知道是否有算法非常适合我的用例。

我有一组劳累数据(范围从0到500),我想沿时间间隔对它们进行聚类。

在这种情况下,有好的算法可以应用吗?我看的是K-Means,但它似乎非常擅长于不考虑时间的聚类,我更多的是寻找使用数据的边界。

1 回复 | 直到 7 年前

David Eisenstat 7 年前

我认为你可以从动态程序中得到好的结果。每次间隔 [i, j) C(i, j) 当间隔值更可能是一个簇时,是一个更低的损失函数。然后让 L(k, r) 是最大损失 k [0, r) ,我们有方程

L(1, r) = C(0, r)
L(k, r), k > 1 = min over s in [0, r) of L(k-1, s) + C(s, r).

如果有的话 O(1) 价值观需要,用记忆法计算这些方程 O(n^2) 时间和 O(n) 空间 n 是样本数。

一个合理的第一选择 C(i,j) 将是该区间内样本的统计方差。天真地说,这需要 Theta(n^3) 计算每个间隔的时间,但是 Welford's algorithm 可用于在迭代时在线计算方差 s O(n^2) .

推荐文章

Leyla Elkhamlichi · 按特定值计数和分组

1 年前

Dante · 如何用升序数字前缀替换极性中的空值?

1 年前

Yneedtobeserious · 给定的数据点,形成它们的关系

2 年前

JoshNko · 如何在雷达图上绘制数据存在缺口的可动画点

2 年前

khushi · 使用带有默认C-SVC的libsvm库理解svm训练的输出

2 年前

JackD27 · 如何删除斜杠并将值复制到panda中的许多其他行中?[副本]

2 年前

doughstone · Matplotlib图例(不同结果)

2 年前

krmbla · 我想使用.weekday()创建一个新的分组数据帧,其中只有带假期的日期

2 年前

yojozaok21 · readline()方法在我的代码中无法正常工作

2 年前

Abdullah G · 尝试为API响应中的每个结果创建一个id

2 年前