我们有一个文档库(word和纯文本),可以包含多达1000、2000甚至更多的项目。每个文档可能包含数千字。有一个参考文档提供给我们,我们应该从池中找到语义上与该参考文档最接近的匹配项。
如果文本本质上不太专业,你可以看看Document2Vec之类的单词嵌入方法——基本上它们使用多维向量的训练集。这些多维向量试图捕捉单词的含义,这意味着您不依赖于所使用的相同关键字(TFIDF就是这种情况)。
https://docs.microsoft.com/en-us/azure/architecture/data-guide/technology-choices/natural-language-processing