代码之家  ›  专栏  ›  技术社区  ›  Rajnil Guha

在Spark SQL中,连接非常大的数据帧(1000000行)和相对较小的数据帧(6090行)的最有效方法是什么?

  •  0
  • Rajnil Guha  · 技术社区  · 7 年前

    在PIG拉丁语中,我们有一种特殊的连接,称为片段复制连接,以连接一个非常大的关系和一个较小的关系。在sparksql中,是否有任何方法可以在非常大的数据帧和较小的数据帧之间执行类似于piglain中的连接?

    1 回复  |  直到 7 年前
        1
  •  1
  •   MaxU - stand with Ukraine    7 年前

    如果数据帧的大小低于 spark.sql.autoBroadcastJoinThreshold broadcast 功能:

    import org.apache.spark.sql.functions._
    df1.join(broadcast(df2))
    

    Broadcast Hash Join