![]() |
1
2
您不必为了开始培训新模型而放弃旧模型,因此,尽管存在任何培训滞后或新文档激增的情况,您仍将拥有一个尽可能做到最好的实时模型。 根据文档空间随时间变化的程度,您可能会发现再培训的好处微乎其微。(一个建立在大量历史记录基础上的好模型可能仍然适合无限期地推断新的向量。)
请注意,要使用更多
如果有可用的词向量,还可以计算文档相似性的“词移动距离”(WMD),这可能会更好地识别相近的重复项。但请注意,计算成本可能相当高–您可能只想针对可能的候选对象的子集进行计算,或者必须添加许多并行处理器才能批量进行计算。另一种较新的距离度量称为“软余弦相似性”(可在最近的gensim中获得),其复杂性介于简单向量到向量的余弦相似性和完整WMD之间,可能值得尝试。
如果词汇量没有扩展,可以加载旧的
(如果您主要关注的是复制精确字串的文档,而不仅仅是类似的模糊主题,那么您可能会考虑使用其他技术进行混合,例如将文档分解成一袋字符图形,或者像剽窃检测应用程序中常见的那样使用“木瓦印刷”。) |