代码之家  ›  专栏  ›  技术社区  ›  Lejla

在dataproc上找不到有效的SPARK\u主页

  •  1
  • Lejla  · 技术社区  · 7 年前

    谷歌云上Dataproc集群执行的Spark作业在任务中卡住 PythonRDD.scala:446

    错误日志显示 Could not find valid SPARK_HOME while searching ... 路径位于 /hadoop/yarn/nm-local-dir/usercache/root/

    问题是,默认情况下,应该在dataproc集群上设置SPARK\u HOME。 其他不使用RDD的spark作业也可以正常工作。

    在集群初始化期间,我没有重新安装spark(但我已经尝试了,我以前认为这是问题的根源)。

    我还发现,在运行任务一分钟后,我的所有执行者都被撤职了。

    是的,我尝试运行以下初始化操作,但没有任何帮助:

    #!/bin/bash
    
    cat << EOF | tee -a /etc/profile.d/custom_env.sh /etc/*bashrc >/dev/null
    export SPARK_HOME=/usr/lib/spark/
    EOF
    

    有什么帮助吗?

    1 回复  |  直到 7 年前
        1
  •  1
  •   Lejla    7 年前

    我使用了一个自定义映射函数。当我将函数放在一个单独的文件中时,问题消失了。