代码之家 › 专栏 › 技术社区 › user3778289

如何为短语创建word2vec,然后计算余弦相似度

phrase cosine-similarity word2vec python

-1

user3778289 · 技术社区 · 6 年前

我刚刚开始使用word2vec,我不知道如何创建两个不同文档集的向量(使用word2vec),document1包含一组单词加短语(列表列表)和document2只包含短语。两者都有列表长度不同。

例如:

document_list1 =[['blogs', 'vmware', 'server', 'virtual', 'oracle update', 'virtualization', 'application server','infrastructure', 'management']['team',olympics,'sport','win''chinese olympic']..]
document_list2 = ['microsoft visual studio','desktop virtualization',
'microsoft exchange server','cloud computing','windows server 2008']['demonstration sport','commonwealth games','summer olympic games']..]

如何计算余弦相似度?我应该为文档列表1中的所有句子创建向量,然后为文档列表2创建向量,然后为余弦相似性创建向量,还是应该为两个文档列表中的每个句子分别创建向量?

任何帮助都将不胜感激。

0 回复 | 直到 6 年前