|
|
1
23
你正在寻找的东西通常被称为 Sentiment Analysis 通常,情绪分析无法处理微妙的微妙之处,如讽刺或讽刺,但如果你向它抛出大量数据,它会做得很好。 情绪分析通常需要相当多的预处理。至少是标记化、句子边界检测和词性标注。有时,句法分析可能很重要。正确地做这件事是计算语言学研究的一个完整分支,除非你先花时间研究这个领域,否则我不会建议你提出自己的解决方案。 OpenNLP有一些工具可以帮助情绪分析,但如果你想要更严肃的东西,你应该研究一下 LingPipe 工具包。它有一些内置的SA功能 tutorial 。你可以在自己的数据集上训练它,但不要认为它完全微不足道:-)。 在谷歌上搜索这个词可能也会给你一些资源。如果你有任何更具体的问题,尽管问,我正在密切关注nlp标签;-) |
|
|
2
6
一些情感分析方法使用其他文本分类任务中流行的策略。最常见的是将你的电影评论转换为单词向量,并将其作为训练数据输入分类器算法。大多数流行的数据挖掘软件包都可以在这里为您提供帮助。你可以看看这个 tutorial on sentiment classification 说明如何使用开源进行实验 RapidMiner toolkit . 顺便说一句,有一个 good data set 用于与检测电影评论意见相关的研究目的。它基于IMDB用户评论,您可以查看许多 related research work 关于该地区以及他们如何使用数据集。 值得记住的是,这些方法的有效性只能从统计的角度来判断,所以你几乎可以假设会有错误分类和难以发现意见的情况。正如在这篇文章中已经注意到的那样,发现讽刺和挖苦之类的事情确实非常困难。 |