代码之家  ›  专栏  ›  技术社区  ›  Sebastien

spark sql over hive的目的是什么?

  •  0
  • Sebastien  · 技术社区  · 8 年前

    我知道多年前就有人问过这个问题,但我仍然想知道使用SparkSQL/HiveContext的真正目的是什么。

    Spark方法提供了一种比内置MapReduce更通用的分布式方法。

    我读了很多文章,声称way先生已经死了,Spark是最好的(我知道我可以通过Spark实现MR方法)。

    当建议使用HiveContext查询数据时,我有点困惑。

    实际上,从SparkSQL/HiveContext运行查询不意味着运行MR作业吗?这不是回到主要问题吗?TEZ,如果我不需要将查询结果封装在更复杂的代码中,这难道不足够吗?

    我错了吗?

    1 回复  |  直到 8 年前
        1
  •  1
  •   user8772503    8 年前

    实际上,从SparkSQL/HiveContext运行查询不意味着运行MR作业吗?

    HiveContext SparkSession

    最后:

    • Hive是一个具有模块化组件的数据库。它支持相对丰富的权限系统、突变和事务。
    • Spark是通用处理引擎。尽管有SQL ish组件,但它并不试图成为一个数据库。