代码之家  ›  专栏  ›  技术社区  ›  banbh

如何在dplyr中将列矩阵附加到数据帧中?

  •  1
  • banbh  · 技术社区  · 7 年前

    我想附加( mutate base:: 但是,同样地,我要问的是,使用tidyverse中的函数来实现这一点的最自然(或惯用)的方法是什么。

    例如,假设我们估计分位数回归:

    library(dplyr)
    
    tibble(x = runif(100)) %>%
      mutate(y = rnorm(n())) ->
      EstimationData
    
    library(quantreg)
    
    taus <- (1:9)/10
    rq_fit <- rq(y ~ x, tau = taus, data = EstimationData)
    

    x :

    PredictionData <- tibble(x = seq(0, 1, len = 10))
    

    predict(rq_fit, newdata = PredictionData)
    

    它返回一个 矩阵 (每个tau对应一列)。一件很自然的事情就是把预测和相应的 s、 人们可能希望能够 mutate() PredictionData ,但据我所知这是不可能的。一种可能性是:

    PredictionData %>%
      data.frame(predict(rq_fit, newdata = .), check.names = FALSE) # (*)
    

    虽然它依赖于 base::data.frame() . 请注意 tibble() as_tibble() 不要工作。

    尝试编写更多惯用tidyverse代码的一种方法是将矩阵转换为向量列表,如下所示:

    row_split <- function(X) split(X, row(X, as.factor = TRUE))
    
    PredictionData %>%
      mutate(y = row_split(predict(rq_fit, newdata = .))) %>%
      unnest(.id = 'tau_ix') %>%
      mutate(tau = taus[as.integer(tau_ix)]) %>%
      select(-tau_ix)
    

    但我不认为这样更好。

    Is方法 (*) 最好的办法?

    1 回复  |  直到 7 年前
        1
  •  1
  •   duckmayr    7 年前

    我想你想要的功能是 dplyr::bind_cols() . 注意,这不适用于矩阵,因此您还必须使用 dplyr::as_tibble() .

    如果您的目标是将事物保持为tibble,请使用 dplyr 等等,我认为这是最简单的方法:

    PredictionData %>% bind_cols(as_tibble(predict(rq_fit, newdata = .)))
    

    然而,有人可能会认为这有点过于“从内到外”而不是“从左到右”的习惯用法 接近。所以,也许你想要更像

    rq_fit %>%
        predict(newdata = PredictionData) %>%
        as_tibble() %>%
        bind_cols(PredictionData) %>%
        select(x, everything())
    

    两种方法都给出以下输出:

    # A tibble: 10 x 10
               x `tau= 0.1` `tau= 0.2` `tau= 0.3` `tau= 0.4`   `tau= 0.5` `tau= 0.6` `tau= 0.7` `tau= 0.8` `tau= 0.9`
           <dbl>      <dbl>      <dbl>      <dbl>      <dbl>        <dbl>      <dbl>      <dbl>      <dbl>      <dbl>
     1 0.0000000 -1.5755585 -0.8082654 -0.3133431 -0.1952309  0.058074887 0.44450275  0.6679990  0.8802325   1.650510
     2 0.1111111 -1.4767907 -0.7915847 -0.3517192 -0.1909820  0.041473996 0.39935461  0.6132367  0.8618259   1.618999
     3 0.2222222 -1.3780228 -0.7749040 -0.3900952 -0.1867331  0.024873104 0.35420647  0.5584744  0.8434194   1.587488
     4 0.3333333 -1.2792549 -0.7582233 -0.4284712 -0.1824842  0.008272213 0.30905833  0.5037121  0.8250128   1.555976
     5 0.4444444 -1.1804871 -0.7415425 -0.4668472 -0.1782353 -0.008328679 0.26391019  0.4489498  0.8066063   1.524465
     6 0.5555556 -1.0817192 -0.7248618 -0.5052233 -0.1739865 -0.024929570 0.21876205  0.3941875  0.7881997   1.492954
     7 0.6666667 -0.9829513 -0.7081811 -0.5435993 -0.1697376 -0.041530462 0.17361391  0.3394252  0.7697932   1.461442
     8 0.7777778 -0.8841835 -0.6915004 -0.5819753 -0.1654887 -0.058131353 0.12846577  0.2846630  0.7513866   1.429931
     9 0.8888889 -0.7854156 -0.6748196 -0.6203513 -0.1612398 -0.074732245 0.08331763  0.2299007  0.7329801   1.398419
    10 1.0000000 -0.6866477 -0.6581389 -0.6587274 -0.1569909 -0.091333136 0.03816949  0.1751384  0.7145735   1.366908
    

    数据

    set.seed(1234)
    
    library(dplyr)
    
    tibble(x = runif(100)) %>%
        mutate(y = rnorm(n())) ->
        EstimationData
    
    library(quantreg)
    
    taus <- (1:9)/10
    rq_fit <- rq(y ~ x, tau = taus, data = EstimationData)
    
    PredictionData <- tibble(x = seq(0, 1, len = 10))