代码之家  ›  专栏  ›  技术社区  ›  Simon Hessner

NLP:doc2vec/word2vec中的预处理

  •  3
  • Simon Hessner  · 技术社区  · 7 年前

    一些关于单词和文档嵌入主题的论文(word2vec,doc2vec)提到,他们使用斯坦福大学CoreNLP框架对输入单词/句子进行标记化/柠檬化/词性标记:

    语料库被引理化,并用斯坦福CoreNLP(Manning等人,2014)标记词性,每个标记都被引理和词性标记替换

    ( http://www.ep.liu.se/ecp/131/039/ecp17131039.pdf )

    对于预处理,我们使用Stanford CoreNLP对单词进行标记和小写

    ( https://arxiv.org/pdf/1607.05368.pdf )

    所以我的问题是:

    • 为什么第一篇论文使用词性标注?每个代币都会被替换为 {lemma}_{POS} 那训练模特的整个过程呢?或者标签是用来过滤代币的? 例如,gensims WikiCorpus在默认情况下应用柠檬化,然后只保留少数类型的词性(动词、名词等),并去掉其余部分。那么,推荐的方法是什么?

    • 在我看来,第二篇论文的引文似乎只是将单词拆分,然后将它们小写。这也是我在使用维基语料库之前第一次尝试的。在我看来,这对于文档嵌入应该会有更好的效果,因为大多数POS类型都会影响句子的意义。我说得对吗?

    在最初的doc2vec论文中,我没有找到关于预处理的细节。

    0 回复  |  直到 7 年前