![]() |
1
1
失败的根本原因与自交叉连接导致的内存有关。即使我不断地增加CPU的功率和内存,它仍然失败。所以这个问题的解决方案是下面的组合。
参见示例代码:
结合以上3种方法,我可以在1.5小时内完成任务,只使用1个主节点和4个工作节点(每个vm 8个cpu和30gb)。 |
![]() |
Kevin Smeeks · Pyspark JDBC分区读取 5 月前 |
![]() |
user3579222 · 阅读以前的Spark API 6 月前 |
![]() |
JFlo · 在PySpark笔记本中读取多个Parquet文件 6 月前 |
![]() |
Matthew Thomas · partition覆盖动态和“逻辑”分区 10 月前 |
![]() |
lenpyspanacb · 在Pyspark中计算重复次数 11 月前 |
![]() |
maximodesousadias · 如何根据条件删除日期后的记录 11 月前 |