代码之家 › 专栏 › 技术社区 › aaaaa

基于data.frame中的一个组从行块中删除重复项

duplicates dataframe r

aaaaa · 技术社区 · 7 年前

我需要基于 data.frame .

在下面的示例中,每组 'a' 观测值(>1)只需减少到一个观测值,该观测值必须是较低值的观测值。 time 价值观:

df_1 = data.frame(time = c(1,2,8,12,19,22,23,30), group = 'a')

df_2 = data.frame(time = c(4,5,6,15,16,18,21,24,25,27), group = 'b')

df = rbind(df_1, df_2)

> df
   time group
1     1     a
2     2     a
3     4     b
4     5     b
5     6     b
6     8     a
7    12     a
8    15     b
9    16     b
10   18     b
11   19     a
12   21     b
13   22     a
14   23     a
15   24     b
16   25     b
17   27     b
18   30     a

这里是我的预期输出:

   time group
1     1     a
3     4     b
4     5     b
5     6     b
6     8     a
8    15     b
9    16     b
10   18     b
11   19     a
12   21     b
13   22     a
15   24     b
16   25     b
17   27     b
18   30     a

有什么建议吗?

谢谢

1 回复 | 直到 7 年前

Ronak Shah 7 年前

我们可以分开 group 使用 rleid 从 data.table , if 组 是 a 然后返回 time ,为了 b Group按原样返回整个组。

library(tidyverse)
library(data.table)

df %>%
  group_split(rleid(group), keep = FALSE) %>%
  map_dfr(~ if(.$group[1] == 'a') .[which.min(.$time), ] else .)


#    time group
#   <int> <fct>
# 1     1 a    
# 2     4 b    
# 3     5 b    
# 4     6 b    
# 5     8 a    
# 6    15 b    
# 7    16 b    
# 8    18 b    
# 9    19 a    
#10    21 b    
#11    22 a    
#12    24 b    
#13    25 b    
#14    27 b    
#15    30 a

推荐文章

Amp · 使用R ggplot2删除geom_radial中axis.line和panel.border之间的空格

1 年前

Hard_Course · 用另一列中的值替换行的最后一个非NA条目

1 年前

Mark R · 使用geom_sf()删除地球仪上不需要的网格线

1 年前

Joe · 根据对工作日和本周早些时候的日期的了解,找到一个日期

1 年前

Ben · 统计向量中的单词在字符串中出现的频率

1 年前

TheCodeNovice · R中符号格式的尾随零和其他问题[重复]

1 年前

katefull06 · 在R中使用terra修改范围时,会为单独的SpatRaster重写范围

1 年前

dez93_2000 · 在R管道子功能中引用管道对象的当前状态

1 年前

accibio · 在ggplot2中为同一变量创建两个连续的颜色渐变比例

1 年前

Mankka · 如何在Ggplot2中绘制均匀的径向图

1 年前