![]() |
1
3
这是Spark的一个众所周知的问题。即使您重新分区了数据,Spark也会洗牌数据。 有什么问题 重分区确保每个分区包含关于单个列值的数据。 很好的例子 here
但是,Spark在后续操作中不记得这些信息。另外,不同分区之间分区的总顺序也不会保持在spark中。i、 Spark知道单个分区有一个分区的数据,但不知道其他分区有同一列的数据。此外,还需要对数据进行排序,以确保不需要无序排列。
你需要使用火花 扣合特征
我找到这个了 Wiki 是非常详细的扣功能。
|
![]() |
user3579222 · 阅读以前的Spark API 6 月前 |
![]() |
JFlo · 在PySpark笔记本中读取多个Parquet文件 6 月前 |
![]() |
Matthew Thomas · partition覆盖动态和“逻辑”分区 11 月前 |
![]() |
Nakeuh · 从数组列中新建数据帧列 12 月前 |
![]() |
maximodesousadias · 如何根据条件删除日期后的记录 12 月前 |
![]() |
SUBHOJEET · 如何使用pyspark读取rds文件? 1 年前 |