如何在spark中为数据帧内的每个组训练分布式机器学习模型(通过一组键操作获得)?
Sparkyr提供以下便利功能:
http://spark.rstudio.com
spark_apply(
iris_tbl,
function(e) broom::tidy(lm(Petal_Width ~ Petal_Length, e)),
names = c("term", "estimate", "std.error", "statistic", "p.value"),
group_by = "Species"
)
但是在普通的scala API中有类似的功能吗?
我听说有一个collect/weka/。。。可能有人建议,但这有一个缺点,就是不允许分布式培训。
有没有一种方法可以允许对分组模型进行分布式训练?对于线性回归
Grouped linear regression in Spark
是一个很好的解决方法,但是基于树的模型呢?