一些关于单词和文档嵌入主题的论文(word2vec,doc2vec)提到,他们使用斯坦福大学CoreNLP框架对输入单词/句子进行标记化/柠檬化/词性标记:
语料库被引理化,并用斯坦福CoreNLP(Manning等人,2014)标记词性,每个标记都被引理和词性标记替换
(
http://www.ep.liu.se/ecp/131/039/ecp17131039.pdf
)
对于预处理,我们使用Stanford CoreNLP对单词进行标记和小写
(
https://arxiv.org/pdf/1607.05368.pdf
)
所以我的问题是:
-
为什么第一篇论文使用词性标注?每个代币都会被替换为
{lemma}_{POS}
那训练模特的整个过程呢?或者标签是用来过滤代币的?
例如,gensims WikiCorpus在默认情况下应用柠檬化,然后只保留少数类型的词性(动词、名词等),并去掉其余部分。那么,推荐的方法是什么?
-
在我看来,第二篇论文的引文似乎只是将单词拆分,然后将它们小写。这也是我在使用维基语料库之前第一次尝试的。在我看来,这对于文档嵌入应该会有更好的效果,因为大多数POS类型都会影响句子的意义。我说得对吗?
在最初的doc2vec论文中,我没有找到关于预处理的细节。