代码之家 › 专栏 › 技术社区 › ihadanny

在spark join中,表顺序是否像在pig中一样重要?

bigdata apache-pig apache-spark hadoop

ihadanny · 技术社区 · 10 年前

在pig中执行常规连接时,连接中的最后一个表不会被带入内存,而是通过流传输,因此如果a的每个键的基数较小,而B的基数较大,那么这样做会更好 join A, B 比 join A by B 从性能角度来看(避免溢出和OOM)

火花中有类似的概念吗?我没有看到任何这样的建议,我想知道怎么可能?在我看来,实现与pig中的几乎相同: https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/CoGroupedRDD.scala

还是我错过了什么?

1 回复 | 直到 8 年前

aaronman 10 年前

这没有什么区别,在spark中,RDD只有在缓存时才会被带入内存。因此,为了实现相同的效果,您可以缓存较小的RDD。另一件你可以在火花中做的事,我不确定猪会做,就是如果所有RDD都有相同的分区,那么就不需要进行洗牌。

推荐文章

nxn · ADX Kusto如何合并两个大表

1 年前

Ajay S Pal · 当调用函数时传递参数时,PySpark没有在函数内部创建Dataframe

1 年前

DSA · 基于R中的引用将矢量的值替换为数据帧列的值

1 年前

sclark952 · Docker容器中MongoDB使用Flask和进行聚合查询的问题

2 年前

Altin Mag. · 如何将spark连接到mongodb?

2 年前

Uddhav Savani · Spark Left Join即使在选择时使用数据帧名称,也会给出歧义列名的错误

2 年前

user8625479 · Pyspark StringIndexer在对Dataframe中的列进行索引并获取行数时引发“看不见的标签”错误

2 年前

CompEng · 如何通过查看我的两个秋天来复制行?

2 年前

Arlo Clarke · 如何以自动化方式导出大型Neo4j数据集进行分析

7 年前

RefiPeretz · SPARK聚合基于一列的所有列[重复]

7 年前