代码之家 › 专栏 › 技术社区 › Giora Simchoni

获取对应于大熊猫组中max的行groupby

pandas-groupby group-by dataframe pandas python

Giora Simchoni · 技术社区 · 7 年前

简单数据帧:

df = pd.DataFrame({'A': [1,1,2,2], 'B': [0,1,2,3], 'C': ['a','b','c','d']})
df
   A  B  C
0  1  0  a
1  1  1  b
2  2  2  c
3  2  3  d

我希望每一个价值( groupby )对于A列,获取C列的值,其中B列是最大值。例如,对于A列的组1,B列的最大值是1,所以我想要C列的值“B”:

   A  C
0  1  b
1  2  d

不需要假设列B是排序的,性能是最优先的,然后是优雅的。

4 回复 | 直到 7 年前

BENY 7 年前

用支票 sort_values + drop_duplicates

df.sort_values('B').drop_duplicates(['A'],keep='last')
Out[127]: 
   A  B  C
1  1  1  b
3  2  3  d

Jondiedoop 7 年前

df.groupby('A').apply(lambda x: x.loc[x['B'].idxmax(), 'C'])
#    A
#1    b
#2    d

使用 idxmax 查找索引的位置 B 是最大值,然后选择列 C 在该组中(使用lambda函数

cs95 abhishek58g 7 年前

这里有点好玩 groupby 和 nlargest :

(df.set_index('C')
   .groupby('A')['B']
   .nlargest(1)
   .index
   .to_frame()
   .reset_index(drop=True))

   A  C
0  1  b
1  2  d

或者, sort_values , 子句 和 last :

df.sort_values('B').groupby('A')['C'].last().reset_index()

   A  C
0  1  b
1  2  d

user3483203 7 年前

类似于@jondiedoop的解决方案,但避免了 apply :

u = df.groupby('A')['B'].idxmax()

df.loc[u, ['A', 'C']].reset_index(drop=1)

   A  C
0  1  b
1  2  d

推荐文章

Joan · 基于多个panda列的唯一值进行分组

3 年前

d_frEak · 具有装箱条件的dataframe groupby聚合计数函数

3 年前

Andre Nevares sj95126 · 如何在Pandas中为特定键的唯一值添加新列(问题agregate)

3 年前

T_Ner · 如何筛选最后一行中的任何组是负数还是正数,只需显示该组即可。熊猫

3 年前

The Great · Pandas groupby并计算多列中NA值的比率

3 年前

yurnero · 熊猫groupby:当前组的坐标

4 年前

EugLP · Groupby multiple columns&Sum-使用添加的If条件创建新列

4 年前

R Shriya · 基于python中另一列中的AND条件在一列中获取值

4 年前

Anakin Skywalker · 修复列名并在将数据框按两列分组后重命名

4 年前

deppep · Pandas根据另一列的值创建一个包含索引的新列

4 年前