差异是由于四舍五入
lambdas
在
preProcess
四舍五入到小数点后一位的函数。
检查此示例:
library(caret)
library(recipes)
library(MASS)
library(mlbench)
data(Sonar)
df <- Sonar[,-61]
使用
预处理
功能和设置
fudge
至0(不允许0/1 lambdas强制)。
z2 <- preProcess(x = as.data.frame(df), method = c('BoxCox'), fudge = 0)
和使用
recepies
:
z <- recipe(~ ., data = as.data.frame(df )) %>%
step_BoxCox(., everything()) %>%
prep(., training = as.data.frame(df))
让我们检查lambdas
收款人
:
z$steps[[1]]$lambdas
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12
0.09296796 0.23383117 0.19487939 0.11471259 0.18688851 0.35852835 0.48787887 0.36830343 0.26340880 0.29810673 0.33913896 0.50361765
V13 V14 V15 V16 V17 V18 V19 V20 V21 V22 V23 V24
0.49178396 0.35997958 0.43900093 0.28981749 0.22843441 0.27016373 0.50573719 0.83436868 1.02366629 1.15194335 1.35062142 1.44484148
V25 V26 V27 V28 V29 V30 V31 V32 V33 V34 V35 V36
1.51851127 1.61365888 1.47445453 1.44448827 1.22132457 1.00145613 0.66343491 0.61951328 0.53028496 0.45278118 0.39019507 0.37536033
V37 V38 V39 V40 V41 V42 V52 V53 V54 V55 V56 V57
0.28428050 0.23439217 0.29554367 0.47263000 0.34455069 0.44036919 0.15240917 0.30314637 0.28647186 0.16202628 0.27153385 0.17005357
V58 V59 V60
0.15688906 0.28761156 0.06652761
和lambdas
预处理
:
sapply(z2$bc, function(x) x$lambda)
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20 V21 V22 V23 V24 V25 V26 V27 V28 V29 V30 V31 V32 V33 V34
0.1 0.2 0.2 0.1 0.2 0.4 0.5 0.4 0.3 0.3 0.3 0.5 0.5 0.4 0.4 0.3 0.2 0.3 0.5 0.8 1.0 1.2 1.4 1.4 1.5 1.6 1.5 1.4 1.2 1.0 0.7 0.6 0.5 0.5
V35 V36 V37 V38 V39 V40 V41 V42 V52 V53 V54 V55 V56 V57 V58 V59 V60
0.4 0.4 0.3 0.2 0.3 0.5 0.3 0.4 0.2 0.3 0.3 0.2 0.3 0.2 0.2 0.3 0.1
因此:
df$V1^z$steps[[1]]$lambdas[1]
不等于
df$V1^sapply(z2$bc, function(x) x$lambda)[1]
默认情况下
fudge = 0.2
差距将更大,因为
-0.2 - 02
将更改为
0
ie
log
转换时
0.8 - 1.2
lambdas将更改为
1
-无转换。
我不关心这些差异,这两个函数都将减少数据的偏斜。只是不要将它们混合在同一个培训管道中。
此外,为了获得更无偏的性能估计,这些转换应该在重新采样期间执行,而不是在重新采样之前执行,以避免数据泄漏。