代码之家  ›  专栏  ›  技术社区  ›  kaxil

获取Dataproc日志到Stackdriver日志

  •  1
  • kaxil  · 技术社区  · 7 年前

    我正在运行Dataproc并使用默认值提交Spark作业 client-mode . 这些作业的日志在GCP控制台中可见,并在GCS存储桶中可用。不过,我想看看日志 Stackdriver日志记录 .

    cluster-mode 相反。

    1 回复  |  直到 7 年前
        1
  •  5
  •   KoopaKing    7 年前

    这是Dataproc团队正在积极研究的问题,应该很快就会为您提供解决方案。如果您想提交一个公共功能请求来跟踪这是一个选项,但我会尝试在您可以使用此功能时更新此响应。

    深入研究一下,使用集群模式时可以看到日志的原因是,我们有Fluentd配置,默认情况下可以获取YARN容器日志(userlogs)。当在集群模式下运行时,驱动程序在一个YARN容器中运行,这些日志由该配置获取。

    目前,驱动程序生成的输出由Dataproc代理直接转发给GCS。将来会有一个选项,在启动集群时将所有驱动程序输出发送到Stackdriver。

    更新:

    这个特性现在是Beta版,可以稳定使用。创建群集时,属性“dataproc:dataproc.logging.stackdriver.job.driver.enable“”可用于切换群集是否将作业驱动程序日志发送到Stackdriver。此外,您还可以使用属性“dataproc:dataproc.logging.stackdriver.job.yarn.container.enable“使群集将容器日志与创建它们的作业相关联,而不是与运行它们的群集相关联。

    文件可用 here

    推荐文章