代码之家 › 专栏 › 技术社区 › Lejla

在dataproc上找不到有效的SPARK\u主页

google-cloud-dataproc rdd hadoop-yarn pyspark apache-spark

Lejla · 技术社区 · 7 年前

谷歌云上Dataproc集群执行的Spark作业在任务中卡住 PythonRDD.scala:446

错误日志显示 Could not find valid SPARK_HOME while searching ... 路径位于 /hadoop/yarn/nm-local-dir/usercache/root/

问题是,默认情况下,应该在dataproc集群上设置SPARK\u HOME。其他不使用RDD的spark作业也可以正常工作。

在集群初始化期间,我没有重新安装spark(但我已经尝试了,我以前认为这是问题的根源)。

我还发现,在运行任务一分钟后,我的所有执行者都被撤职了。

是的,我尝试运行以下初始化操作,但没有任何帮助:

#!/bin/bash

cat << EOF | tee -a /etc/profile.d/custom_env.sh /etc/*bashrc >/dev/null
export SPARK_HOME=/usr/lib/spark/
EOF

有什么帮助吗?

1 回复 | 直到 7 年前

Lejla 7 年前

我使用了一个自定义映射函数。当我将函数放在一个单独的文件中时,问题消失了。

推荐文章

Pasq · 将远程目录发布到远程Repo Github工作流

2 年前

Surender Raja · 纱线如何在集群模式下了解Apache spark中的数据位置

7 年前

user3725190 · JAVAlang.ClassCastException:组织。阿帕奇。hadoop。无法将配置转换为组织。阿帕奇。hadoop。纱线配置文件配置

7 年前

sealfeeder · HADOOP Thread-应用程序已添加到调度程序中,尚未激活。由于群集资源为空,正在跳过AM分配

7 年前

Ondrej · GCP Dataproc-配置纱线展计划程序

7 年前

jk1 · 纱线是否计算过执行器数量?

7 年前

enodmilvado · 从HDP当前版本2.6.0.3升级到2.6.4失败

7 年前

Soheil Pourbafrani · 关于标记纱线的Flink会话-请求的资源不可用

7 年前

Lejla · 在dataproc上找不到有效的SPARK\u主页

7 年前

Soheil Pourbafrani · 纱线指定在哪个节点管理器上运行哪个应用程序

7 年前