代码之家 › 专栏 › 技术社区 › Simon Hessner

NLP:doc2vec/word2vec中的预处理

doc2vec gensim word2vec stanford-nlp nlp

3

Simon Hessner · 技术社区 · 7 年前

一些关于单词和文档嵌入主题的论文(word2vec,doc2vec)提到,他们使用斯坦福大学CoreNLP框架对输入单词/句子进行标记化/柠檬化/词性标记:

语料库被引理化,并用斯坦福CoreNLP(Manning等人,2014)标记词性,每个标记都被引理和词性标记替换

对于预处理,我们使用Stanford CoreNLP对单词进行标记和小写

所以我的问题是:

为什么第一篇论文使用词性标注?每个代币都会被替换为 {lemma}_{POS} 那训练模特的整个过程呢?或者标签是用来过滤代币的? 例如,gensims WikiCorpus在默认情况下应用柠檬化,然后只保留少数类型的词性(动词、名词等),并去掉其余部分。那么,推荐的方法是什么?
在我看来,第二篇论文的引文似乎只是将单词拆分,然后将它们小写。这也是我在使用维基语料库之前第一次尝试的。在我看来,这对于文档嵌入应该会有更好的效果,因为大多数POS类型都会影响句子的意义。我说得对吗?

在最初的doc2vec论文中,我没有找到关于预处理的细节。

0 回复 | 直到 7 年前