代码之家 › 专栏 › 技术社区 › user183974

通过分组变量r扩展二进制变量

reshape2 reshape r

user183974 · 技术社区 · 7 年前

我有一个数据集(DF),看起来像下面的数据集:

   ID DOB      Age Outcome    
   1  1/01/80  18     1
   1  1/01/80  18     0
   2  1/02/81  17     1
   2  1/02/81  17     0
   3  1/03/70  28     1

我想将我的数据库更改为宽格式,以便每个ID有一行。然而,鉴于每个ID的DOB和Age都相同,我希望这些变量在新数据库中是一列,并且只需为结果变量设置多个列,如下所示:

   ID DOB      Age Outcome.1 Outcome.2    
   1  1/01/80  18     1         0
   2  1/02/81  17     1         0
   3  1/03/70  28     1         NA

我尝试过使用tidyr和reforme,但我似乎无法将数据库转换成这种格式。例如,当我使用代码时:

spread(DF, key=ID, value = Outcome)

我得到一个错误,表明我有重复的行标识符。有没有办法把数据库转换成我想要的格式?

谢谢

3 回复 | 直到 7 年前

MKR 7 年前

一种解决方案可以通过以下步骤实现: tidyverse . 我们的想法是 row number 到列,为每行提供唯一的ID。之后有不同的应用方法 spread .

df <- read.table(text = "ID DOB      Age Outcome    
1  1/01/80  18     1
1  1/01/80  18     0
2  1/02/81  17     1
2  1/02/81  17     0
3  1/03/70  28     1", header = T, stringsAsFactors = F)

library(tidyverse)

df %>% mutate(rownum = row_number(), Outcome = paste("Outcome",Outcome,sep=".")) %>%
  spread(Outcome, rownum) %>%
  mutate(Outcome.0 = ifelse(!is.na(Outcome.0),0, NA )) %>%
  mutate(Outcome.1 = ifelse(!is.na(Outcome.1),1, NA ))

# Result:
#  ID     DOB Age Outcome.0 Outcome.1
#1  1 1/01/80  18         0         1
#2  2 1/02/81  17         0         1
#3  3 1/03/70  28        NA         1

C-x C-c 7 年前

dcast函数用于这样的事情。

dcast(data, ID + DOB + Age ~ Outcome)

Martin C. Arnold 7 年前

你可以使用 tidyr 和 dplyr :

   DF %>%
      group_by(ID) %>%
      mutate(OutcomeID = paste0('Outcome.', row_number())) %>%
      spread(OutcomeID, Outcome)

推荐文章

opposity · 形成一个数据帧,该数据帧包含R中包含类别和子类别的列

2 年前

TaxpayersMoney · 将数据从二维numpy阵列转换为三维numpy阵列

7 年前

SK23 · 在Python中将长数据重塑为宽数据(熊猫)[重复]

7 年前

Tom · 如何重塑keras中的张量?

7 年前

Faryan · 如何使用R[关闭]将列表表的名称插入到列中

7 年前

Milad · 重塑篮子数据框,用于分离篮子中的项目

7 年前

Micawber · 使用多列重塑熊猫数据框

7 年前

conor · 当组合不存在时,用空值重新整形

7 年前

Mark K · R、统计Excel数据透视表等变量的出现次数

7 年前

Nautica · 将数据帧中的两个凌乱向量拆分为一个公共列

7 年前