代码之家 › 专栏 › 技术社区 › armstrong3701

如何有效地处理熊猫数据框中缺失的数据并计算条件统计?

pandas

armstrong3701 · 技术社区 · 1 年前

我有一个pandas DataFrame df,它在多列中包含一些缺失的数据。DataFrame的结构如下:

ID  Age  Gender  Score
1   25    Male    85.0
2   30  Female    90.0
3   22     NaN    78.0
4   27    Male     NaN
5   21  Female    80.0

我如何根据这些年龄段计算平均“分数” ['0-20', '21-25', '26-30', '31-40', '41+'] ?

1 回复 | 直到 1 年前

yashaswi k 1 年前

import pandas as pd

data = {'ID': [1, 2, 3, 4, 5],
    'Age': [25, 30, 22, 27, 21],
    'Gender': ['Male', 'Female', None, 'Male', 'Female'],
    'Score': [85.0, 90.0, 78.0, None, 80.0]
}

df = pd.DataFrame(data)
age_bins = [0, 20, 25, 30, 40, float('inf')]
age_labels = ['0-20', '21-25', '26-30', '31-40', '41+']

df['AgeRange'] = pd.cut(df['Age'], bins=age_bins, labels=age_labels)

mean_score_by_age_range = df.groupby('AgeRange')['Score'].mean()

print(mean_score_by_age_range)

输出:

AgeRange
0-20      NaN
21-25    81.0
26-30    90.0
31-40     NaN
41+       NaN
Name: Score, dtype: float64

推荐文章

Mainland · Python数据帧规范化值错误:列的长度必须与键相同

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

rpn · 如何在列[1]中连续第二次出现“0”时返回列[0]的值

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前

Gtoth · 如何分割Pandas DataFrame中包含多个日期的两个时间戳之间的差异

1 年前

Domarius · 使用loc为多行设置多列值

1 年前

Swastik Bhattacharyya · 如何在同一类别类型的多列上运行get_dummies()函数?

1 年前

DrZoidberg09 · 如何在字典列表中创建一个新关键字,该关键字是另一个关键字的总和?

1 年前

armstrong3701 · 如何有效地处理熊猫数据框中缺失的数据并计算条件统计?

1 年前

msts1906 · 大熊猫向乳胶的适当多品种出口

1 年前