代码之家 › 专栏 › 技术社区 › Banjo

使用dpylr在两列中查找重复的字符值

dplyr r

Banjo · 技术社区 · 6 年前

我有一个包含名字和姓氏的列的数据集。我想筛选那些名字和姓氏相同的行。

例如,如果数据中的名字多次表示peter和last name parker,我想过滤这些行。

目前,我尝试:

library(dplyr)
dat %>%
  filter(duplicated(as.numeric(`First name`)) & duplicated(as.numeric(`Last name`)))

但是,列first name和last name中返回的值不同。

@阿格诺瑙

dat %>%
  filter(duplicated(paste0(`First name`, `Last name`)))

    # A tibble: 5 x 2
      `First name` `Last name`
      <chr>        <chr>      
    1 Frank        Seehaus    
    2 Nadine       Urseanu    
    3 Rudolf       Schicker   
    4 Renate       Kaymer     
    5 Brigitte     Reibenspies

我想看:

    # A tibble: 5 x 2
      `First name` `Last name`
      <chr>        <chr>      
    1 Peter        Parker    
    2 Perer       Perker    
    3 Peter       Parker   
    ...

1 回复 | 直到 6 年前

arg0naut91 6 年前

你可以试试:

library(dplyr)

dat %>%
  filter(duplicated(paste0(`First name`, `Last name`)))

根据以下数据输出:

  First name Last name
1      Peter    Parker

如果你想把所有的复制品都归还,你可以这样做:

dat %>%
  group_by(`First name`, `Last name`) %>%
  filter(n() > 1)

根据以下数据输出:

# A tibble: 2 x 2
# Groups:   First name, Last name [1]
  `First name` `Last name`
  <fct>        <fct>      
1 Peter        Parker     
2 Peter        Parker

实例数据:

dat <-
  data.frame(
    `First name` = c("Peter", "Peter", "John", "John"),
    `Last name` = c("Parker", "Parker", "Biscuit", "Chocolate"),
    check.names = FALSE
  )

dat

  First name Last name
1      Peter    Parker
2      Peter    Parker
3       John   Biscuit
4       John Chocolate

推荐文章

monotonic · 如何将格式为“col1+col3+col4”的数据帧的行名转换为一列数字向量“c(1,3,4)”?

2 年前

buzz · 在dplyr包中,可以根据不同列中的值对列进行变异吗

2 年前

Artur Vidaurre de Almeida · 用R列中的下一个值替换NA值

2 年前

Rich · 如何通过比较R中的两列来计算不同的值?

3 年前

J.Sabree · case\u when在使用group by时忽略一些参数

3 年前

cigarettes_after_text · 有没有一种方法可以更高效地将其写入单个Dplyr语句?

3 年前

Melderon · 将dplyr转换命令转换为基R函数

3 年前

Rafael Peixoto · 熊猫有什么类似于dplyr的“列表列”的吗

3 年前

awoj · 使用pivot\u wider()时修改列名顺序

3 年前

John Thomas · 使用tidyverse/dplyr[duplicate]创建虚拟变量作为计数

3 年前