代码之家 › 专栏 › 技术社区 › lf_araujo

合并两个不完全因素

lf_araujo · 技术社区 · 6 年前

在对相同的观察结果合并了四个数据集之后,我最终得到了两个变量来编码条件,然而这些都是由不同的研究人员完成的,并且两者都存在不完整性。请考虑MWE:

ID <- c("a1", "a2", "a3",  "a4", "a5", "a6")
a <- c("sch", "con", "unknown", "sch", "con", "con")
b <- c("sch", "con", "sim", "sch", "unknown", "con")


dt <- data.frame(ID, a, b)
dt

打印出:

  ID       a       b
1 a1     sch     sch
2 a2     con     con
3 a3 unknown     sim
4 a4     sch     sch
5 a5     con unknown
6 a6     con     con

  ID       a       b     ab
1 a1     sch     sch     sch
2 a2     con     con     con
3 a3 unknown     sim     sim
4 a4     sch     sch     sch
5 a5     con unknown     con
6 a6     con     con     con

如何在R中实现这一点?是否也有办法检查a和b之间的不一致性?

1 回复 | 直到 6 年前

akrun 6 年前

我们可以用 NA 然后使用 coalesce

dt$ab <- do.call(dplyr::coalesce, replace(dt[-1], dt[-1] == 'unknown', NA))

pmax

do.call(pmax, c(replace(dt[-1], dt[-1] == 'unknown', NA), list(na.rm = TRUE)))
#[1] "sch" "con" "sim" "sch" "con" "con"

数据

dt <- data.frame(ID, a, b, stringsAsFactors = FALSE)

推荐文章

Marc B. · 使用ggplot2创建条形图时“缺少值”

1 年前

deschen · tidyverse与外部向量发生突变,该外部向量的元素是数据帧中的列值

1 年前

Laura · 在Shiny中使用可排序的包拖放名称,这些名称将成为图表

1 年前

Mallikarjun M · 如何使用随机森林进行时间序列预测?

1 年前

ly li · 模型摘要:当表格形状改变时,拟合优度消失

1 年前

C.Robin · 将marginaffects::predictions()的结果连接回main df?

1 年前

monotonic · 如何将格式为“col1+col3+col4”的数据帧的行名转换为一列数字向量“c(1,3,4)”?

2 年前

Shawn Hemelstrand · 为什么我的自定义errorbar函数不能在R中工作?

2 年前

RoyBatty · 统计每个字符在整个数据集中出现的次数

2 年前

stats_noob · R: 记录某个“行为”发生的循环的索引?

2 年前