|
|
1
33
如果数据中有任何分类列(而不是存储为对象列或字符串的类别),请确保在groupby命令中使用observed=True选项。这样可以确保只创建存在条目的行,例如,每个客户id、订单id组合只有一行,而不是创建n\u客户*n\u订单行! 我刚刚在2600万行数据集上进行了groupby求和,从未超过7GB的RAM。在添加observed=True选项之前,它将达到62GB,然后耗尽。 |
|
|
2
8
你可以使用 dask.dataframe 对于此任务
您只需转换
|
|
|
3
1
我想说的是,将数据按列进行拆分,比如说四次,然后使用每个子集的id来执行操作,然后重新合并 |
|
|
Cam · Pandas列表日期到日期时间 1 年前 |
|
|
Bijan · Pandas批量更新帐户字符串 1 年前 |
|
Kernel · 进入熊猫的定义。系列super().reindex 1 年前 |
|
|
adventurous_chip_55 · 如何引爆柱子 1 年前 |
|
|
RKIDEV · Panda迭代行并将第n行值乘以下一(n+1)行值 1 年前 |