有很多关于使用pyspark构建推荐系统的帖子。推荐信。
我对推荐系统的数据准备有一些疑问。
请点击一篇广泛格式的网站文章,如:
userId article1 article2 article2
u1 null 2 1
u2 1 null null
...................
据派斯帕克说。ml.建议,输入数据需要特定格式,因此上述数据集被融合为长格式。
我们如何处理这里丢失的数据?
在sklearn中,丢失的数据需要用特定值填充或删除。
另一个问题是关于特征规范化。
每个用户都有用户行为偏差,有些文章也有条目偏差。用户级规范化和项目级规范化有帮助吗?
在sklean中,交叉验证具有详细模式,可以打印出一些中间结果。到目前为止,我还没有发现spark CrossValidator有这样的模式。有没有办法从CrossValidator获得中间结果?