![]() |
1
2
Scala是懒惰的,在这种情况下,这意味着如果不持久化数据,则每个操作的所有转换都将重做。因此,如果计算数据集
需要很长时间,那么保存数据绝对是有利的。为了获得最佳效果,我建议在第一次保存之前进行(保存到
注意,您不应该使用
|
![]() |
2
0
你能做到的
这样,您可以持久化所有内容,然后将不同的列集保存到不同的表中。 |
![]() |
user3579222 · 阅读以前的Spark API 5 月前 |
![]() |
JFlo · 在PySpark笔记本中读取多个Parquet文件 6 月前 |
![]() |
Matthew Thomas · partition覆盖动态和“逻辑”分区 10 月前 |
![]() |
Nakeuh · 从数组列中新建数据帧列 11 月前 |
![]() |
maximodesousadias · 如何根据条件删除日期后的记录 11 月前 |
![]() |
SUBHOJEET · 如何使用pyspark读取rds文件? 1 年前 |