代码之家  ›  专栏  ›  技术社区  ›  Alex Weinstein

NLP:定性“积极”与“消极”句子

  •  13
  • Alex Weinstein  · 技术社区  · 17 年前

    我需要你的帮助来确定分析行业特定句子(即电影评论)中“正面”和“负面”的最佳方法。我以前见过OpenNLP这样的库,但它太低级了——它只给了我基本的句子结构;我需要的是一个更高层次的结构: -希望有单词表 -希望可以用我的数据集进行训练

    谢谢!

    2 回复  |  直到 17 年前
        1
  •  23
  •   Aleksandar Dimitrov    17 年前

    你正在寻找的东西通常被称为 Sentiment Analysis 通常,情绪分析无法处理微妙的微妙之处,如讽刺或讽刺,但如果你向它抛出大量数据,它会做得很好。

    情绪分析通常需要相当多的预处理。至少是标记化、句子边界检测和词性标注。有时,句法分析可能很重要。正确地做这件事是计算语言学研究的一个完整分支,除非你先花时间研究这个领域,否则我不会建议你提出自己的解决方案。

    OpenNLP有一些工具可以帮助情绪分析,但如果你想要更严肃的东西,你应该研究一下 LingPipe 工具包。它有一些内置的SA功能 tutorial 。你可以在自己的数据集上训练它,但不要认为它完全微不足道:-)。

    在谷歌上搜索这个词可能也会给你一些资源。如果你有任何更具体的问题,尽管问,我正在密切关注nlp标签;-)

        2
  •  6
  •   user229044    8 年前

    一些情感分析方法使用其他文本分类任务中流行的策略。最常见的是将你的电影评论转换为单词向量,并将其作为训练数据输入分类器算法。大多数流行的数据挖掘软件包都可以在这里为您提供帮助。你可以看看这个 tutorial on sentiment classification 说明如何使用开源进行实验 RapidMiner toolkit .

    顺便说一句,有一个 good data set 用于与检测电影评论意见相关的研究目的。它基于IMDB用户评论,您可以查看许多 related research work 关于该地区以及他们如何使用数据集。

    值得记住的是,这些方法的有效性只能从统计的角度来判断,所以你几乎可以假设会有错误分类和难以发现意见的情况。正如在这篇文章中已经注意到的那样,发现讽刺和挖苦之类的事情确实非常困难。