我在本地训练了pycaret模型,然后将其推送到S3。现在,我想在更大的生产数据集上运行predict_model()方法。
使用boto3,我将模型pickle文件从S3复制到Spark EMR集群的主节点。然后,我使用以下命令导入库
from pycaret.classification import *
并尝试应用我的预测如下-
model_path = '/tmp/catboost_model_aug19'
saved_model = load_model(model_path)
Transformation Pipeline and Model Successfully Loaded
new_data = spark.sql("select * from table").toPandas()
df = predict_model(saved_model, data = new_data)
当我运行
predict_model()
它说错话了
Pipeline not found
或者,当我在本地机器上运行相同的代码时,它工作得很好。我该如何解决这个错误?