代码之家 › 专栏 › 技术社区 › Mehmed Andrew Lam

获取值大于组平均值的行

dplyr group-by r

Mehmed Andrew Lam · 技术社区 · 7 年前

我有一个数据框,其中“a”列有6个不同的值。“B”列有浮点值。通过使用dplyr,我可以按列“A”分组,并按如下方式找到每组的列“B”的平均值:

mydf %>% group_by(A) %>% summarize(Mean = mean(B, na.rm=TRUE))

我的目标是在每个组中找到“B”值高于组平均值的行。如何实现此目标(使用base R或dplyr)?

4 回复 | 直到 7 年前

neilfws 7 年前

你可以 group 然后 filter :

mydf %>%
  group_by(A) %>%
  filter(B > mean(B, na.rm = TRUE)) %>%
  ungroup()

Ronak Shah 7 年前

一个简单的R基选择 ave 会是

df[df$b > ave(df$b, df$a) , ]

#   a  b
#4  1  4
#5  1  5
#9  2  9
#10 2 10

的默认参数 大道 是 mean 所以如果有 NA 存在于 b 修改为

df[df$b > ave(df$b, df$a, FUN = function(x) mean(x,na.rm = TRUE)) , ]

另一个解决方案 subset 和 大道 由@Onyambu建议

subset(df,b>ave(b,a))

#   a  b
#4  1  4
#5  1  5
#9  2  9
#10 2 10

数据

df <- data.frame(a = rep(c(1, 2), each = 5), b = 1:10)
df

#   a  b
#1  1  1
#2  1  2
#3  1  3
#4  1  4
#5  1  5
#6  2  6
#7  2  7
#8  2  8
#9  2  9
#10 2 10

AntonySamuelB 7 年前

使用R基,我会选择这个。它并不像dplyr那样优雅。

mean.df <- aggregate(mydf$b, by =list(a = mydf$a), FUN = mean)
names(mean.df)[2] <- "mean"
mydf <- merge(mydf, mean.df, by = "a")
# Rows whose values are higher than mean
new.df <- subset(mydf, b > mean, select = -mean)

我喜欢使用数据表。所以 data.table 解决办法是,

mydt <- data.table(mydf)
mydt[, mean := mean(b), by = a]
new.dt <- mydt[b > mean, -c("mean"), with = TRUE]

Simon C. 7 年前

另一种方法是使用基R和 tapply :

mydf = cbind.data.frame(A=sample(6,20,rep=T),B=runif(20))
mydf.ave = tapply(mydf$B,mydf$A,mean)
newdf = mydf[mydf$B > mydf.ave[as.character(mydf$A)],]

(因此,一行是: mydf[mydf$B > tapply(mydf$B,mydf$A,mean)[as.character(mydf$A)],] )

推荐文章

Amp · 使用R ggplot2删除geom_radial中axis.line和panel.border之间的空格

1 年前

Hard_Course · 用另一列中的值替换行的最后一个非NA条目

1 年前

Mark R · 使用geom_sf()删除地球仪上不需要的网格线

1 年前

Joe · 根据对工作日和本周早些时候的日期的了解,找到一个日期

1 年前

Ben · 统计向量中的单词在字符串中出现的频率

1 年前

TheCodeNovice · R中符号格式的尾随零和其他问题[重复]

1 年前

katefull06 · 在R中使用terra修改范围时,会为单独的SpatRaster重写范围

1 年前

dez93_2000 · 在R管道子功能中引用管道对象的当前状态

1 年前

accibio · 在ggplot2中为同一变量创建两个连续的颜色渐变比例

1 年前

Mankka · 如何在Ggplot2中绘制均匀的径向图

1 年前