![]() |
1
1
嗯:
因为变量可以跨多个任务重用,所以广播是有价值的,尤其是当数据足够大,会增加大量开销时。 如果不是,那么最好还是坚持闭包序列化,以提高可读性(我承认这是一个偏好问题)。 |
![]() |
2
1
分布式的不是“任何内部循环”,而是RDD上的操作。
所以这取决于
|
![]() |
Bruno Peixoto · Spark群集CI管道构建失败 1 年前 |
![]() |
mcsilvio · 在foreach中组织联接的最佳方式是什么? 2 年前 |
![]() |
Dhruv · 在sbt控制台上运行Spark 2 年前 |
![]() |
Leonard · Pyspark:JSON到Pyspark数据帧 2 年前 |
![]() |
billie class · 将列中的值重写为列表中的下一个值 2 年前 |