![]() |
1
4
这个
正如你所说,
对照所有已知标记的向量检查新向量的相似性是查看新文档与现有标记相似的合理基线方法。作为一种“最近邻居”方法,最近的标记或最近的几个标记可能是未知文档的合理标记。
使用或添加称为文档标记的已知标签的方法通常会有帮助。但也要注意的是,如果您只在数千个文档中使用4个唯一的标记,这在功能上与使用4个巨大的文档来训练模型非常相似,这些文档可能不擅长在大维度空间(4维)中定位这4个向量,因为不需要太多的变化/细微的对比将经过训练的向量轻推到有用的排列中。(典型出版
|
![]() |
2
1
我找到了解决办法:
|