代码之家 › 专栏 › 技术社区 › rawwar

pyspark的sparkcontext中PyFiles参数的用途是什么[duplicate]

pyspark apache-spark python

rawwar · 技术社区 · 6 年前

我用python编写了一个实现分类器的类。我想使用Apache Spark使用这个分类器来并行化大量数据点的分类。

我在一个集群上使用Amazon EC2,集群上有10个从机,这是基于一个a m I,上面有python的Anaconda发行版。ami允许我远程使用IPython笔记本。
我已经检查了在从master运行命令行spark时是否可以导入和使用BoTree.py(我只需要从编写import BoTree开始,我的类BoTree就可用了
我已经通过ssh连接到其中一个从机并尝试在那里运行ipython,并且能够导入BoTree,因此我认为模块已经成功地跨集群发送(我还可以在…/python2.7/文件夹中看到BoTree.py文件)

然而

import BoTree
bo_tree = BoTree.train(data)
rdd = sc.parallelize(keyed_training_points) #create rdd of 10 (integer, (float, float) tuples
rdd = rdd.mapValues(lambda point, bt = bo_tree: bt.classify(point[0], point[1]))
out = rdd.collect()

Spark因错误而失败(我认为是相关的一点):

  File "/root/spark/python/pyspark/worker.py", line 90, in main
    command = pickleSer.loads(command.value)
  File "/root/spark/python/pyspark/serializers.py", line 405, in loads
    return cPickle.loads(obj)
ImportError: No module named BoroughTree

有人能帮我吗?有点绝望。。。

谢谢

0 回复 | 直到 9 年前

zero323 little_kid_pea 9 年前

可能最简单的解决方案是 pyFiles 创建时的参数 SparkContext

from pyspark import SparkContext
sc = SparkContext(master, app_name, pyFiles=['/path/to/BoTree.py'])

PYTHONPATH .

如果在交互模式下工作,则必须停止使用现有的上下文。 sc.stop() 在你创建一个新的。

PYSPARK_PYTHON 你可以用 conf/spark-env.sh 文件夹。

把文件复制到 lib 是一个相当混乱的解决方案。如果要避免使用 pyFiles文件 我建议您创建一个普通的Python包或Conda包并进行正确的安装。这样,您就可以轻松地跟踪安装的内容,删除不必要的包,并避免一些难以调试的问题。

dmbaker 9 年前

addPyFile 随后将模块发送给每个工人。

sc.addPyFile('/path/to/BoTree.py')

pyspark.SparkContext.addPyFile( path ) documentation

推荐文章

user3579222 · 阅读以前的Spark API

5 月前

JFlo · 在PySpark笔记本中读取多个Parquet文件

5 月前

Matthew Thomas · partition覆盖动态和“逻辑”分区

9 月前

Jamal Khan · 如何在Apache Spark中读取500 GB的大文件CSV文件并对其执行聚合?

10 月前

Nakeuh · 从数组列中新建数据帧列

11 月前

maximodesousadias · 如何根据条件删除日期后的记录

11 月前

Ajay S Pal · 当调用函数时传递参数时,PySpark没有在函数内部创建Dataframe

1 年前

SUBHOJEET · 如何使用pyspark读取rds文件?

1 年前

Shankar Panda · 如何从org.apache.spark.sql获取密钥。在scala中键入列并将其放入列表变量中?

1 年前

Aaron Brazier · 连接2个pyspark数据帧并继续运行窗口sum和max

1 年前