|
1
3
创建数据集
方法1:
这种方法会比较慢,因为它涉及到一个traspose via
方法2:
使用SQL-您可以通过
|
|
|
2
2
首先将根数据帧拆分为两个数据帧:
然后进行完全外部联接,我们可以得到最终结果:
无需做
|
|
|
3
1
|
|
|
4
1
一个简单的解决方案是再进行一次Groupby:
您可以创建第二列,其中failed=false中的failed为,否则为0。这意味着count列的和给出了false+true,而count false的和给出了false。然后再做一次Groupby 注意:其他一些答案使用Pivot。我相信Pivot解决方案会更慢(它做的更多),但是,如果您选择使用它,请将特定的值添加到Pivot调用中,即Pivot(“失败”、[“真”、“假”)以提高性能,否则Spark将不得不执行两个路径(第一个查找值)。 |
|
|
5
1
创建2个新数据帧:
连接两个数据帧:
将一列与另一列分开:
|