代码之家 › 专栏 › 技术社区 › asongtoruin

从部分分类列获取值

pandas python

asongtoruin · 技术社区 · 7 年前

value_counts 从 Categorical 列(特别是包含月份信息)使用 pandas

import calendar
import random

import pandas as pd

random.seed(1)

month_names = calendar.month_name[1:]
month_names += month_names

df1 = pd.DataFrame({
    'Month': month_names,
    'Flag': [random.choice([True, False]) for _ in month_names]
})

df1['Month'] = pd.Categorical(
    df1['Month'], categories=calendar.month_name[1:], ordered=True
)
print(df1.groupby('Month')['Flag'].value_counts())

按预期打印:

Month      Flag 
January    False    2
February   True     2
March      False    2
April      True     2
May        True     2
June       False    2
July       False    1
           True     1
August     False    1
           True     1
September  False    2
October    True     2
November   False    1
           True     1
December   False    2
Name: Flag, dtype: int64

但是如果我们的 'Month' 列不包含所有可能的类别, 熊猫 抛出 ValueError

month_names = ['January', 'February', 'March']
month_names += month_names

df2 = pd.DataFrame({
    'Month': month_names,
    'Flag': [random.choice([True, False]) for _ in month_names]
})

df2['Month'] = pd.Categorical(
    df2['Month'], categories=calendar.month_name[1:], ordered=True
)
print(df2.groupby('Month')['Flag'].value_counts())

加薪:

ValueError: operands could not be broadcast together with shape (12,) (3,)

我们有什么办法能得到合适的答案吗 值\u计数 部分数据的结果?理想情况下,这将保留完整的类别,但即使没有将是一个开始。

1 回复 | 直到 7 年前

Jondiedoop 7 年前

observed -关键字:

print(df2.groupby('Month', observed=True)['Flag'].value_counts())
#Month     Flag 
#January   False    1
#          True     1
#February  True     2
#March     False    2
#Name: Flag, dtype: int64

要获取groupby中的所有值,可以使用 crosstab reindex 使用所有类别。老实说,我不知道为什么 GroupBy 给出错误 value_counts() stack 使 Flag -多索引中的列:

(pd.crosstab(df2['Month'], df2['Flag'])
.reindex(df2['Month'].cat.categories.tolist(), fill_value=0)
.stack())
#Month      Flag 
#January    False    1.0
#           True     1.0
#February   False    0.0
#           True     2.0
#March      False    2.0
#           True     0.0
#April      False    0.0
#           True     0.0
#May        False    0.0
#           True     0.0
#June       False    0.0
#           True     0.0
#July       False    0.0
#           True     0.0
#August     False    0.0
#           True     0.0
#September  False    0.0
#           True     0.0
#October    False    0.0
#           True     0.0
#November   False    0.0
#           True     0.0
#December   False    0.0
#           True     0.0

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

1 年前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

1 年前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

1 年前

user29715306 · from_users=和chats=电视节目中的差异

1 年前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

1 年前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

1 年前

prayner · 更新嵌套字典包含列表中的项

1 年前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

1 年前

Dave · 如何在for循环中修改列表值

1 年前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

1 年前