代码之家 › 专栏 › 技术社区 › Simon

使用hadoop进行简单统计计算的示例

apache-pig hadoop statistics

2

Simon · 技术社区 · 16 年前

我想扩展现有的聚类算法来处理非常大的数据集,并重新设计了这样一种方法:它现在可以用数据分区来计算,这为并行处理打开了大门。我一直在研究Hadoop和Pig,我发现一个很好的实际起点是根据我的数据计算基本统计数据,即算术平均值和方差。

我已经在google上搜索了一段时间,但是可能我没有使用正确的关键字,而且我还没有找到任何一个适合做这种计算的好的入门知识,所以我想我应该在这里问一下。

有谁能告诉我一些关于如何使用hadoop计算均值和方差的好例子,和/或提供一些示例代码吗。

谢谢

2 回复 | 直到 16 年前

1

Marcelo Cantos 16 年前

PigLatin有一个相关的可重用代码库PiggyBank,它有许多方便的函数。不幸的是,上次我检查时它没有变化,但可能已经改变了。如果没有别的,它可能会提供一些示例来帮助您开始自己的实现。

我应该注意到方差很难以稳定的方式在巨大的数据集上实现,所以要小心!

2

1

cwensel 16 年前

您可以仔细检查一下集群代码是否可以放入级联中。在现有的java库中添加新函数、do连接等非常简单。

如果你对Clojure感兴趣,你可以看看这些github项目: http://github.com/clj-sys