![]() |
1
3
这是Spark的一个众所周知的问题。即使您重新分区了数据,Spark也会洗牌数据。 有什么问题 重分区确保每个分区包含关于单个列值的数据。 很好的例子 here
但是,Spark在后续操作中不记得这些信息。另外,不同分区之间分区的总顺序也不会保持在spark中。i、 Spark知道单个分区有一个分区的数据,但不知道其他分区有同一列的数据。此外,还需要对数据进行排序,以确保不需要无序排列。
你需要使用火花 扣合特征
我找到这个了 Wiki 是非常详细的扣功能。
|
![]() |
TheCodeNovice · R中符号格式的尾随零和其他问题[重复] 5 月前 |
![]() |
Daniel Estévez · 扩展数据帧以包含不存在的值 5 月前 |
![]() |
T Richard · 根据条件交换分组数据中的字符串或值 5 月前 |
![]() |
RKIDEV · Panda迭代行并将第n行值乘以下一(n+1)行值 6 月前 |
![]() |
Ssong · 如何有条件地运用资本化? 6 月前 |
![]() |
Marcio Lino · 在Pandas中转换多个值列 6 月前 |
![]() |
RobertF · 如果列没有表头,如何在R数据帧中引用变量名? 7 月前 |