代码之家  ›  专栏  ›  技术社区  ›  Simon

使用hadoop进行简单统计计算的示例

  •  2
  • Simon  · 技术社区  · 16 年前

    我想扩展现有的聚类算法来处理非常大的数据集,并重新设计了这样一种方法:它现在可以用数据分区来计算,这为并行处理打开了大门。我一直在研究Hadoop和Pig,我发现一个很好的实际起点是根据我的数据计算基本统计数据,即算术平均值和方差。

    我已经在google上搜索了一段时间,但是可能我没有使用正确的关键字,而且我还没有找到任何一个适合做这种计算的好的入门知识,所以我想我应该在这里问一下。

    有谁能告诉我一些关于如何使用hadoop计算均值和方差的好例子,和/或提供一些示例代码吗。

    谢谢

    2 回复  |  直到 16 年前
        1
  •  1
  •   Marcelo Cantos    16 年前

    PigLatin有一个相关的可重用代码库PiggyBank,它有许多方便的函数。不幸的是,上次我检查时它没有变化,但可能已经改变了。如果没有别的,它可能会提供一些示例来帮助您开始自己的实现。

    我应该注意到方差很难以稳定的方式在巨大的数据集上实现,所以要小心!

        2
  •  1
  •   cwensel    16 年前

    您可以仔细检查一下集群代码是否可以放入级联中。在现有的java库中添加新函数、do连接等非常简单。

    http://www.cascading.org/

    如果你对Clojure感兴趣,你可以看看这些github项目: http://github.com/clj-sys

    推荐文章