我知道多年前就有人问过这个问题,但我仍然想知道使用SparkSQL/HiveContext的真正目的是什么。
Spark方法提供了一种比内置MapReduce更通用的分布式方法。
我读了很多文章,声称way先生已经死了,Spark是最好的(我知道我可以通过Spark实现MR方法)。
当建议使用HiveContext查询数据时,我有点困惑。
实际上,从SparkSQL/HiveContext运行查询不意味着运行MR作业吗?这不是回到主要问题吗?TEZ,如果我不需要将查询结果封装在更复杂的代码中,这难道不足够吗?
我错了吗?
实际上,从SparkSQL/HiveContext运行查询不意味着运行MR作业吗?
HiveContext 或 SparkSession
HiveContext
SparkSession
最后: