![]() |
1
2
为此目的,最好的词汇可能是google web 1t 5-gram数据集。 http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13 不幸的是,除非你们的大学是最不发达国家的成员,否则它是免费的。 您也可以在类似python nltk的包中尝试这个语料库,但是google-one似乎是最适合您使用的,因为它已经与搜索查询相关。 |