代码之家 › 专栏 › 技术社区 › Hatshepsut

多列交叉表

pandas python

Hatshepsut · 技术社区 · 7 年前

我有一个带有名称、日期和位置的数据框。对于每个name day location triple,我想知道具有该name day的行中有多大比例的行具有该位置。

在代码中,我从 df expected .

import pandas as pd

df = pd.DataFrame(
    [
        {"name": "Alice", "day": "friday", "location": "left"},
        {"name": "Alice", "day": "friday", "location": "right"},
        {"name": "Bob", "day": "monday", "location": "left"},
    ]
)

print(df)



expected = pd.DataFrame(
    [
        {"name": "Alice", "day": "friday", "location": "left", "row_percent": 50.0},
        {"name": "Alice", "day": "friday", "location": "right", "row_percent": 50.0},
        {"name": "Bob", "day": "monday", "location": "left", "row_percent": 100.0},
    ]
).set_index(['name', 'day', ])
print(expected)

印刷的:

In [13]: df                                                                                                                                                                                  
Out[13]: 
      day location   name
0  friday     left  Alice
1  friday    right  Alice
2  monday     left    Bob




In [12]: expected                                                                                                                                                                            
Out[12]: 
             location  row_percent
name  day                         
Alice friday     left         50.0
      friday    right         50.0
Bob   monday     left        100.0

1 回复 | 直到 7 年前

user3483203 7 年前

使用 groupby value_counts :

df.groupby(['name', 'day']).location.value_counts(normalize=True).mul(100)

name   day     location
Alice  friday  left         50.0
               right        50.0
Bob    monday  left        100.0
Name: location, dtype: float64

对您想要的输出进行更多的清洁:

out = (df.groupby(['name', 'day']).location.value_counts(normalize=True).mul(100)
          .rename('row_percent').reset_index(2))

             location  row_percent
name  day
Alice friday     left         50.0
      friday    right         50.0
Bob   monday     left        100.0

out == expected

              location  row_percent
name  day
Alice friday      True         True
      friday      True         True
Bob   monday      True         True

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

1 年前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

1 年前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

1 年前

user29715306 · from_users=和chats=电视节目中的差异

1 年前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

1 年前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

1 年前

prayner · 更新嵌套字典包含列表中的项

1 年前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

1 年前

Dave · 如何在for循环中修改列表值

1 年前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

1 年前