代码之家 › 专栏 › 技术社区 › fortuneRice

Pandas自定义二级groupby函数

pandas-groupby pandas

fortuneRice · 技术社区 · 4 年前

我有这个:

df = pd.DataFrame({'sku_id' : ['A','A','A','B','C','C'],
                  'order_counts' : [1,2,3,1,1,2],
                  'order_val' : [10,20,30,10,10,20]})

这就产生了:

简单的 groupby() 属于 sku_id 使用 df.groupby('sku_id').sum() 将给出:

以及两级分组 df.groupby(['sku_id', 'order_counts']).sum() 将给出:

但现在我想要一个自定义的二级分组 order_counts 以至于 order_counts == 1 被认为是一个群体和任何 order_counts > 1 在一个标记为 R (重复订购)

结果如下:

sku_id order_counts  order_val         
A      1                    10
       R                    50                           
B      1                    10
C      1                    10
       R                    20

有没有办法提供一个自定义的groupby函数来实现这一点?

2 回复 | 直到 4 年前

Shubham Sharma mkln 4 年前

Mask 这个 != 1 价值观 order_counts 列 R ,然后使用 groupby + sum

g = df['order_counts'].mask(df['order_counts'] != 1, 'R')
df.groupby(['sku_id', g])['order_val'].sum()

后果

sku_id  order_counts
A       1               10
        R               50
B       1               10
C       1               10
        R               20
Name: order_val, dtype: int64

richardec 4 年前

就这样怎么样 assign 在你之前 groupby ?

new_df = (df
    .assign(order_counts=lambda x: np.where(x['order_counts'] > 1, 'R', x['order_counts']))
    .groupby(['sku_id', 'order_counts'])
    .sum()
)

输出:

>>> new_df
                     order_val
sku_id order_counts           
A      1                    10
       R                    50
B      1                    10
C      1                    10
       R                    20

推荐文章

Joan · 基于多个panda列的唯一值进行分组

4 年前

d_frEak · 具有装箱条件的dataframe groupby聚合计数函数

4 年前

Andre Nevares sj95126 · 如何在Pandas中为特定键的唯一值添加新列(问题agregate)

4 年前

T_Ner · 如何筛选最后一行中的任何组是负数还是正数,只需显示该组即可。熊猫

4 年前

The Great · Pandas groupby并计算多列中NA值的比率

4 年前

yurnero · 熊猫groupby:当前组的坐标

4 年前

EugLP · Groupby multiple columns&Sum-使用添加的If条件创建新列

4 年前

R Shriya · 基于python中另一列中的AND条件在一列中获取值

4 年前

Anakin Skywalker · 修复列名并在将数据框按两列分组后重命名

4 年前

deppep · Pandas根据另一列的值创建一个包含索引的新列

4 年前