代码之家 › 专栏 › 技术社区 › Samima

列名第一部分的子集

subset r

Samima · 技术社区 · 8 年前

我有两个大数据帧df1和df2。我只想保留那些使用df2的列,这些列与df1的列名(代表公司名称)的第一部分匹配。这意味着我想通过匹配df1中的公司名称来子集df2。文件如下所示:

df1型

date       Com1 - PI    Com3 - PI   Com6 - PI
1/1/2007    292782.4    101780.7    2406010
1/2/2007    292782.4    101780.7    2406010
1/3/2007    292782.4    101780.7    2406010

df2型

date        Com1 - CV  Com2- CV  Com3 - CV   Com4 - CV   Com5- CV    Com6 - CV
6/6/1990    1.57         NA        5.3         NA          NA          4.51
6/7/1990    1.57         NA        5.2         NA          NA          4.51
6/8/1990    1.59         NA        5.4         NA          NA          4.51
6/11/1990   1.59         NA        5.2         NA          NA          4.51

预期输出(df2的子集)

date      Com1 - CV     Com3 - CV       Com6 - CV
6/6/1990    1.57           5.3            4.51
6/7/1990    1.57           5.2            4.51
6/8/1990    1.59           5.4            4.51
6/11/1990   1.59           5.2            4.51

作为r的新学员,如果您能在这方面帮助我,我将不胜感激。

1 回复 | 直到 8 年前

akrun 8 年前

用regex删除第一个单词后的部分,然后使用 %in% 获得精确匹配

df2[sub("\\s*-\\s*.*", "", names(df2)) %in% sub("\\s*-\\s*.*", "", names(df1))]
#       date Com1 - CV Com3 - CV Com6 - CV
#1  6/6/1990      1.57       5.3      4.51
#2  6/7/1990      1.57       5.2      4.51
#3  6/8/1990      1.59       5.4      4.51
#4 6/11/1990      1.59       5.2      4.51

推荐文章

Triceratops · 从数据帧中选择不在子集中的索引

3 年前

Nate · 使用R中的多个条件删除df中的行

3 年前

RMacey · R中的矢量化(子集)赋值

8 年前

Andrea Neri · 提取数据行。表中的其他数据行。表[副本]

8 年前

user6985 · 根据从matlab或R中的第二个文件中选择的标题从文件中提取列

8 年前

MJZ · R: 有条件地应用于具有排除值的子集

8 年前

Jake · 使用for循环进行子集设置,并从该循环创建多个数据帧。

8 年前

Afke · 为绘图设置数据框导致找不到对象错误

8 年前

andemexoax · 当使用数字时,如何按名称删除R中的列?

8 年前

Luis Carmona Martinez · 创建新数据。表,并在一个变量上匹配向量列表

8 年前