代码之家  ›  专栏  ›  技术社区  ›  Jonathan Holloway

Hadoop分布差异

  •  20
  • Jonathan Holloway  · 技术社区  · 16 年前

    使用Apache Hadoop发行版作为基准。

    有一个 充分的理由 在标准Apache Hadoop发行版上使用这些发行版之一?

    4 回复  |  直到 16 年前
        1
  •  14
  •   SquareCog    16 年前

    免责声明:今年夏天我在Cloudera实习(但我的一些最好的朋友在雅虎!:-)

    雅虎发行版是Hadoop 20的一个版本,他们在集群的某个子集上运行(运行?)。它包括一组稳定性补丁、错误修复等。这是一个源代码发布;它没有像rpm或debian包等管理员友好的功能。

    Cloudera发行版是rpms和debs的包(源代码也可用)。这意味着您可以通过标准方法等获得更新。它还包括稳定性和bug修复补丁。它是不断维护的(并不是说雅虎没有——我想人们可以去github上查看他们上次更新它的时间)。它还打包了Pig和Hive。

    Cloudera的Hadoop 20发行版处于测试阶段,18被认为是稳定的(更多信息请访问 Cloudera blog ).18版本还包括Hive和Pig的软件包;对于20,你必须自己构建它们(尽管有补丁,但目前还没有支持20的Pig或Hive的官方版本)。Cloudera和雅虎版本的20很可能有很大的重叠;两者都提供清单,因此您可以查看。Cloudera发行版的最新文档位于 http://archive.cloudera.com

    雅虎不为其分发提供支持;他们将补丁版本作为服务提供给社区,因此有兴趣的人可以构建雅虎内部运行的内容。考虑到雅虎集群的规模,这是一个重大的贡献,特别是如果你不是一个一直遵循JIRA的Hadoop开发人员。Cloudera在商业上支持他们的发行版,并通过Hadoop邮件列表提供一些社区支持,对于发行版特定的问题,还可以在他们的GetSatisfaction页面上提供。

    两者都与原版Apache发行版有很大不同,因为它们在发布之间对其进行了补丁(cloudera版本的20有60多个补丁!)。

        2
  •  4
  •   Praveen Sripati    14 年前

    雅虎已经停止了自己的发行版,专注于Apache Hadoop。

    http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of-hadoop/

    http://www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/

    最近,HortonWorks(www.HortonWorks.com)从雅虎剥离出来。现在HortonWorks也将提供与雅虎不同的支持。

    http://www.hortonworks.com/about-us/our-manifesto/

    Cloudera与HortonWorks的思路一致

    http://www.cloudera.com/products-services/

    主要区别在于HortonWorks希望使Apache发行版稳定、易于安装等。Cloudera拥有自己的基于Apache Hadoop的发行版CDH*。

        3
  •  1
  •   Kai Wähner    12 年前

    选择Cloudera、Hortonworks或MapR等Hadoop发行版而不是Apache Hadoop有不同的原因。两大优势是工具支持和商业支持。您还很难“收集和集成”所有Hadoop框架,如Pig、Hive等,以正确和兼容的版本。

    看看我在InfoQ上的文章。它解释了Apache Hadoop、Hadoop发行版和大数据套件之间的差异,以及何时使用哪一个:

    http://www.infoq.com/articles/BigDataPlatform

    顺致敬意,

    凯维纳(@KaiWaehner,www.Kai-waehner.de/blog)

        4
  •  0
  •   Jakob Homan    16 年前

    SquareCog几乎在所有方面都是正确的,除了:雅虎!分发是雅虎所有生产集群上运行的东西!,而不是其中的一个子集。总共有25000多台机器。雅虎!分发已经进行了广泛的端到端测试,以确保可靠、一致的运行。另一种发行版在应用补丁方面更为自由,因此可能具有更多功能,但尚未经过广泛测试。