代码之家 › 专栏 › 技术社区 › DilTeam

替换BroadcastedNestedLoopJoin

apache-spark-sql apache-spark scala sql

DilTeam · 技术社区 · 3 年前

Dataset A: App specific data that contains (among other fields): ip_address

Dataset B: Location data that contains start_ip_address_int, end_ip_address_int, latitude, longitude

A.ip_address >= B.start_ip_address_int AND A.ip_address <= B.end_ip_address_int

Dataset A => Usually contains 110,000
Dataset B => Contains 12.5 Million rows. This is âstaticâ data. Hasnât changed since August 2020.

当我们看到 ,似乎是 广播嵌套循环联接 被认为是非常缓慢的习惯。似乎Spark在相同条件下(如大于、小于)默认选择它。

加快此过程的最佳方法是什么?

0 回复 | 直到 3 年前

推荐文章

Community wiki · 我应该写更多的SQL来提高效率,还是应该写更少的SQL来减少bug?

1 年前

Community wiki · SQL语法新手

1 年前

Thomas Leplus · PLS-00306:过程调用中的参数数量或类型错误

1 年前

KateMak · 是否将多行中的多列与唯一id组合?

1 年前

Mateusz UrbaÅski · 在PostgreSQL中按计算经验分组

1 年前

Karuna · SQL中列内的筛选器[重复]

1 年前

Irvan Affandy · 为另一个选择选择声明的键

1 年前

Community wiki · 这个MySQL语句出了什么问题?

1 年前

user22329205 · 如何使用Google BigQuery中的条件,根据特定列值连接列的N行?

1 年前

Community wiki · 优化从同一表中提取的多列的查询

1 年前