代码之家 › 专栏 › 技术社区 › Kaushik Ghosh

最佳方法在PySpark中遍历数据帧的行

parallel-processing pyspark loops performance dataframe

Kaushik Ghosh · 技术社区 · 2 年前

我有一个要求,我需要根据卡成员(CM)编号对数据帧进行排序,然后遍历每一行,并根据几列的值进行一些操作。因此,我正在寻找最好的方法来迭代/循环数据帧,并并行进行以优化性能。

注意,我使用的是PySpark。

我也读过类似的文章,大多数人都说要将collect()/toLocalIterator()操作作为直接解决方案,但我不想这样做,因为这会将整个数据加载到驱动程序节点中,而且每次运行时我的数据帧大小实际上可能相当大(约50Gb)。因此,通过多个帖子,我想出了两种方法。有人能帮我验证哪种方法应该是最好的吗

1-)从df中找到不同的CM编号列表,然后使用Select为特定的CM值选择特定的行,然后对其进行收集。这仍将在驱动程序节点中加载数据,但卷仍将小于整个卷。执行所需操作并重复上述步骤,直到CM的不同列表结束。

2-)在根据CM编号对数据帧进行排序后使用rdd.map(custom_function)。但不确定我是否能通过这个实现并行。

感谢任何关于该方法的建议

0 回复 | 直到 2 年前

推荐文章

TheCodeNovice · R中符号格式的尾随零和其他问题[重复]

9 月前

Daniel Estévez · 扩展数据帧以包含不存在的值

10 月前

T Richard · 根据条件交换分组数据中的字符串或值

10 月前

Homer Jay Simpson · R中flextable的标题字体和垂直合并

10 月前

RKIDEV · Panda迭代行并将第n行值乘以下一(n+1)行值

10 月前

Ssong · 如何有条件地运用资本化?

11 月前

Marcio Lino · 在Pandas中转换多个值列

11 月前

Ray · 在Python pandas包中使用groupby函数时,输出结果存在差异的原因是什么?

11 月前

RobertF · 如果列没有表头,如何在R数据帧中引用变量名?

11 月前

Homer Jay Simpson · ggplot2`geom_label()中的警告消息`

11 月前