代码之家 › 专栏 › 技术社区 › Ryan O'Neill

计算分布式数据的四分位数

distributed-computing distributed statistics

Ryan O'Neill · 技术社区 · 12 年前

不完全确定这是否是一个合适的论坛。

我有一个小的数据库集群(4个盒子),每台机器都有一个整体数据集的碎片。

我需要计算特定数据点的四分位数,但我需要在不同时访问整个数据集的情况下进行计算。

这可能吗?

编辑我更喜欢确切的答案,但一个合理的近似值可能也会起作用。

2 回复 | 直到 12 年前

bistaumanga 11 年前

在这种情况下,您无法计算精确的四分位数,但QDigest算法可以解决您的问题。你可以得到近似值,这相当不错。您可以检查一次,Java实现在这里可用: https://github.com/addthis/stream-lib/blob/master/src/main/java/com/clearspring/analytics/stream/quantile/QDigest.java .

这样,您就可以在每个集群中创建QDigest数据结构。其超级压缩的数据结构,将维护数据集的四分位数摘要。此外,您可以执行这些数据结构的并集,从而解决您的问题。

因此,在每个集群中创建一个QDigest实例,为了组合结果,只需对每个集群执行这些实例的并集,这将为您提供相当好的四分位数近似值。

您可以按照QDigest的论文了解详细信息。

James 12 年前

我想这可能是不可能的,因为你说数据库很小。如果这是一个大型数据集,并且每个集群都包含1/4的代表性样本,那么我想你可以将特定的数据点与一个集群上的数据进行比较。

数据集的每个碎片的统计数据之间是否存在很大差异?

推荐文章

Madison Ell · R列表不断返回NAs,我该如何修复?

2 年前

Crawford Patten · 如何获得整数列表的四分位数

2 年前

ChrissiLissi · 我的功能有什么问题?使用匹配ID计算百分比

3 年前

Caledonian26 · 向qnorm图中添加直线

3 年前

krassowski · 如何将'VGAM::cumulative'包装到助手函数中('object not found'问题)?

3 年前

vytaute · python scipy中的相关性在统计学上是否显著?

3 年前

remo · R:带子集的T-统计量

3 年前

chiuki · 具有上限的int列表的再分配

3 年前

StatsNovice · 实现一个函数来计算马尔可夫链周期间变化的方差

3 年前

Hamid · 从Javascript(节点)调用R函数

7 年前