代码之家 › 专栏 › 技术社区 › SimbaPK

spark with yarn log4j在多节点集群上集中或复制日志

ambari yarn apache-spark

SimbaPK · 技术社区 · 6 年前

我在3个不同vm上的HDP 3节点集群(2个datanodes,1个namenode)上工作,由Ambari监视。我用纱线运行spark作业,并尝试实现自定义日志。

我在spark conf中设置了每台机器上的log4j.properties文件:

log = /var/log
log4j.rootLogger = WARN, FILE

# Define the file appender
log4j.appender.FILE=org.apache.log4j.FileAppender
log4j.appender.FILE.File=${log}/log.out

# Define the layout for file appender
log4j.appender.FILE.layout=org.apache.log4j.PatternLayout
log4j.appender.FILE.layout.conversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n

log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss} %-5p %c{1}:%L - %m%n

我的问题是日志只保存在驱动程序运行的机器上。因为我在集群模式下使用yarn,所以我当然不想搜索每次运行应用程序时在哪台机器上保存日志如何自动复制每个节点上的日志? 厚度提前

0 回复 | 直到 6 年前

推荐文章

user3579222 · 阅读以前的Spark API

6 月前

JFlo · 在PySpark笔记本中读取多个Parquet文件

6 月前

Matthew Thomas · partition覆盖动态和“逻辑”分区

11 月前

Jamal Khan · 如何在Apache Spark中读取500 GB的大文件CSV文件并对其执行聚合?

11 月前

Nakeuh · 从数组列中新建数据帧列

1 年前

maximodesousadias · 如何根据条件删除日期后的记录

1 年前

Ajay S Pal · 当调用函数时传递参数时,PySpark没有在函数内部创建Dataframe

1 年前

SUBHOJEET · 如何使用pyspark读取rds文件?

1 年前

Shankar Panda · 如何从org.apache.spark.sql获取密钥。在scala中键入列并将其放入列表变量中?

1 年前

Aaron Brazier · 连接2个pyspark数据帧并继续运行窗口sum和max

1 年前