代码之家 › 专栏 › 技术社区 › Sarvagya Dubey

Hadoop中的作业历史服务器是什么?为什么在Map Reduce模式下启动Pig之前必须启动历史服务器?

history apache-pig bigdata mapreduce hadoop

Sarvagya Dubey · 技术社区 · 7 年前

在map reduce模式下启动Pig之前,您必须启动history server else,在尝试执行Pig拉丁语句时,会生成以下日志:

  2018-10-18 15:59:13,709 [main] INFO 
  org.apache.hadoop.mapred.ClientServiceDelegate - Application state 
  is completed. FinalApplicationStatus=SUCCEEDED. **Redirecting to job 
  history server**

  2018-10-18 15:59:14,713 [main] INFO  org.apache.hadoop.ipc.Client - 
  Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 0 
  time(s); retry policy is 

  RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 
  MILLISECONDS)

如上面的日志所示,Pig执行引擎正在尝试连接历史服务器。请解释Hadoop中作业历史服务器的角色,以及为什么需要为Map Reduce作业与Pig中的历史服务器建立连接

1 回复 | 直到 7 年前

Koji 7 年前

JobTracker或ResourceManager将所有作业信息保存在内存中。对于已完成的作业,它会删除它们以避免内存不足。对这些过去作业的跟踪委托给JobHistory服务器。

Pig客户机在其作业完成时提取作业计数器统计信息。统计数据可能仍然与JobTracker/ResourceManager有关,或者pig可能需要询问JobHistory服务器。当JobHistory服务器关闭时,它会打印出这些日志消息,但最终客户端应该仍然会成功,但缺少统计信息。

推荐文章

Shashank Tripathi · 大象鸟在pig 0.16中加载json数据时不存在错误

8 年前

Vaibhav Wadikar · pig中的ColumnMapKeyPrune是什么?

8 年前

hack-is-art · 应用于每个组属性的Pig拉丁极限运算符

8 年前

ShekharAgarwal · 通过Apache Pig中的示例消除运算符使用的歧义

8 年前

asdf · 使用Pig从文件中获取第二条记录

8 年前

Harsh · 在pig中使用UDF时出现错误1070

8 年前

Noobpython · 将日期转换为星期名称和一天的一部分

8 年前

Harshit Kakkar · 清管器,count array_元素

8 年前

user1708054 · 基于字符串的筛选数据以任何单词/字符开头

8 年前

OneUser · 仅当逗号(,)在Pig中的内部引号(“”)时才替换逗号(,)

8 年前