代码之家 › 专栏 › 技术社区 › Clock Slave

PySark装载不合适模型对象的问题

apache-spark-ml pyspark apache-spark

Clock Slave · 技术社区 · 6 年前

我在玩 save 和 load 功能 pyspark.ml.classification 模型。我创建了一个 RandomForestClassifier ,将值设置为几个参数并调用 节约 分类器的方法。成功保存。没有问题。

from pyspark.ml.classification import RandomForestClassifier
# save
rf = RandomForestClassifier()
rf.setImpurity('entropy')
rf.setPredictionCol('predme')
rf.write().overwrite().save('rf_test')

然后我尝试重新加载它,但我注意到它的参数没有我在保存之前设置的值。下面是我尝试的代码

# load
rf2 = RandomForestClassifier()
rf2.load('rf_test')
print(rf2.getImpurity()) # returns gini
print(rf2.getPredictionCol())  # returns prediction

我想我对这段代码应该如何工作以及它实际如何工作的理解是有区别的。

我该怎么做才能以我保存的方式取回物体?

编辑

我尝试过这里提到的方法。但那不起作用。这是我试过的

from pyspark.ml.classification import RandomForestClassifier
rf = RandomForestClassifier()
rf.setImpurity('entropy')
rf.setPredictionCol('predme')
rf.write().overwrite().save('rf_test')
rf2 = RandomForestClassifier
rf2.load('rf_test')
print(rf2.getImpurity())

它返回了以下内容

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: getImpurity() missing 1 required positional argument: 'self'

1 回复 | 直到 6 年前

10465355 user11020637 6 年前

这不是你应该使用的方法 load 方法。这是一个 classmethod 并应在类对象(而不是实例)上调用以返回新对象:

rf2 = RandomForestClassifier.load('rf_test')
rf2.getImpurity()

从技术上讲,在实例上调用它也可以,但它不会修改调用方,而是返回一个新的独立对象:

rf2 = RandomForestClassifier().load('rf_test')

但在实践中,应该避免这种构造。

推荐文章

Kevin Smeeks · Pyspark JDBC分区读取

6 月前

user3579222 · 阅读以前的Spark API

6 月前

Danylo Kuznetsov · 如何在PySpark Rancher中将DataFrame转换为整数?

7 月前

JFlo · 在PySpark笔记本中读取多个Parquet文件

7 月前

Matthew Thomas · partition覆盖动态和“逻辑”分区

11 月前

lenpyspanacb · 在Pyspark中计算重复次数

11 月前

Jamal Khan · 如何在Apache Spark中读取500 GB的大文件CSV文件并对其执行聚合?

1 年前

Jamal Khan · 我们如何在Apache Spark中实现CDC(变更数据捕获)?

1 年前

maximodesousadias · 如何根据条件删除日期后的记录

1 年前

Joe Bloggr · 如何将Dataframe类型的函数参数传递给SparkSQL查询

1 年前