代码之家  ›  专栏  ›  技术社区  ›  Georg Heiler

每组火花串分布模型

  •  0
  • Georg Heiler  · 技术社区  · 7 年前

    如何在spark中为数据帧内的每个组训练分布式机器学习模型(通过一组键操作获得)?

    Sparkyr提供以下便利功能:

    http://spark.rstudio.com

    spark_apply(
      iris_tbl,
      function(e) broom::tidy(lm(Petal_Width ~ Petal_Length, e)),
      names = c("term", "estimate", "std.error", "statistic", "p.value"),
      group_by = "Species"
    )
    

    但是在普通的scala API中有类似的功能吗?

    我听说有一个collect/weka/。。。可能有人建议,但这有一个缺点,就是不允许分布式培训。

    有没有一种方法可以允许对分组模型进行分布式训练?对于线性回归 Grouped linear regression in Spark 是一个很好的解决方法,但是基于树的模型呢?

    0 回复  |  直到 7 年前
    推荐文章