![]() |
1
7
这里最简单的就是使用
显然,这会将数据作为一行返回。 相反,如果你想得到你在问题中所写的结果(每一列每一个唯一值对应一行),这是可行的,但需要相当多的pyspark技巧(而且任何解决方案都可能效率要低得多)。
选项1:分解并合并
你可以用
选项2:按位置选择
首先计算最大数组的大小并将其存储在新列中
我们再次使用
最后我们使用 this trick
|
![]() |
Anneso · 获取系列第一次/最后一次出现的日期 7 年前 |
![]() |
Jared · 如何将时间戳类型的PySpark数据帧截断到当天? 7 年前 |
![]() |
Ashley O · 从当前时间算起N天内的发生次数-pyspark 7 年前 |
![]() |
Nevermore · 检查两个pyspark行是否相等 7 年前 |
![]() |
Ahmad Senousi · 将时间划分为每30分钟一个周期 7 年前 |
![]() |
abhjt · 读取ASCII字符pyspark上的csv和连接行 7 年前 |
![]() |
RobinL · Pyspark:使用带参数的UDF创建新列[重复] 7 年前 |