代码之家 › 专栏 › 技术社区 › buzaku

计算每个类缺少的值

dplyr r

buzaku · 技术社区 · 7 年前

我希望根据数据中的类标签(因变量)检查缺失值的模式。我想要的输出是类标签和类中缺少的值的数量。

library(tidyverse)

fakeData <- data.frame(var1 = c(1,2,NA,4,NA,6,7,8,9,10),
                       var2=c(11,NA,NA,14,NA,16,17,NA,19,NA), 
                       Class = c(rep("A", 5), rep("B", 5)))

fakeData %>% group_by(Class) %>% summarize(numMissing = sum(is.na())) 

Error in summarise_impl(.data, dots) : 
Evaluation error: 0 arguments passed to 'is.na' which requires 1.

我的方法有什么问题?

3 回复 | 直到 7 年前

pasipasi 7 年前

我认为这是一个更干净的解决方案,只使用tidyverse。您不需要知道列的数量。您还可以使用 ?select_helpers 在里面 gather() 选择列,例如。 starts_with("var") .

fakeData %>% 
  group_by(Class) %>% 
  gather(variable, value, -Class) %>% # all except Class 
  summarise(missing_n = sum(is.na(value)))

# A tibble: 2 x 2
  Class  missing_n
  <fctr>     <int>
1 A              5
2 B              2

akrun 7 年前

也许我们能做到

fakeData %>%
      group_by(Class) %>%
      summarise_all(funs(sum(is.na(.)))) %>%
      transmute(Class, numMissing = var1 + var2)

如果我们有许多列,那么使用 purrr::reduce

fakeData %>%
    group_by(Class) %>% 
    summarise_all(funs(sum(is.na(.)))) %>% 
    transmute(Class, numMissing = .[-1] %>% reduce(`+`))
    #or with rowSums
    #transmute(Class, numMissing = rowSums(.[-1]))

gaspers 7 年前

我建议使用重塑库以长格式融合数据集。然后只需按类变量使用聚合函数。

library(reshape)

fakeData <- data.frame(var1 = c(1,2,NA,4,NA,6,7,8,9,10),
                       var2=c(11,NA,NA,14,NA,16,17,NA,19,NA), 
                       Class = c(rep("A", 5), rep("B", 5)))

fData <- melt(fakeData, measure.vars = c("var1", "var2"))

fData
   Class variable value
1      A     var1     1
2      A     var1     2
3      A     var1    NA
4      A     var1     4
5      A     var1    NA
6      B     var1     6
7      B     var1     7
8      B     var1     8
9      B     var1     9
10     B     var1    10
11     A     var2    11
12     A     var2    NA
13     A     var2    NA
14     A     var2    14
15     A     var2    NA
16     B     var2    16
17     B     var2    17
18     B     var2    NA
19     B     var2    19
20     B     var2    NA

with(fData, aggregate(value, list(Class), function(x) { sum(is.na(x)) }))
  Group.1 x
1       A 5
2       B 2

推荐文章

monotonic · 如何将格式为“col1+col3+col4”的数据帧的行名转换为一列数字向量“c(1,3,4)”?

2 年前

buzz · 在dplyr包中,可以根据不同列中的值对列进行变异吗

2 年前

Artur Vidaurre de Almeida · 用R列中的下一个值替换NA值

3 年前

Rich · 如何通过比较R中的两列来计算不同的值?

3 年前

J.Sabree · case\u when在使用group by时忽略一些参数

3 年前

cigarettes_after_text · 有没有一种方法可以更高效地将其写入单个Dplyr语句?

3 年前

Melderon · 将dplyr转换命令转换为基R函数

3 年前

Rafael Peixoto · 熊猫有什么类似于dplyr的“列表列”的吗

3 年前

awoj · 使用pivot\u wider()时修改列名顺序

3 年前

John Thomas · 使用tidyverse/dplyr[duplicate]创建虚拟变量作为计数

3 年前