代码之家  ›  专栏  ›  技术社区  ›  user3778289

如何为短语创建word2vec,然后计算余弦相似度

  •  -1
  • user3778289  · 技术社区  · 6 年前

    我刚刚开始使用word2vec,我不知道如何创建两个不同文档集的向量(使用word2vec),document1包含一组单词加短语(列表列表)和document2只包含短语。两者都有列表长度不同。

    例如:

    document_list1 =[['blogs', 'vmware', 'server', 'virtual', 'oracle update', 'virtualization', 'application server','infrastructure', 'management']['team',olympics,'sport','win''chinese olympic']..]
    document_list2 = ['microsoft visual studio','desktop virtualization',
    'microsoft exchange server','cloud computing','windows server 2008']['demonstration sport','commonwealth games','summer olympic games']..]
    

    如何计算余弦相似度?我应该为文档列表1中的所有句子创建向量,然后为文档列表2创建向量,然后为余弦相似性创建向量,还是应该为两个文档列表中的每个句子分别创建向量?

    任何帮助都将不胜感激。

    0 回复  |  直到 6 年前
    推荐文章