代码之家  ›  专栏  ›  技术社区  ›  special0ne

用于POS标记的NLP库

  •  -4
  • special0ne  · 技术社区  · 10 年前

    我正在寻找一个信誉良好的Java,开源(最好)库/包,它将文本作为输入,并在其中识别和标记词性。

    组件如下:

    Verbs + Tense + Passive/Active {Simple Present, Past Progressive, Past Passive, Present Perfect ... } 
    Prepositions of movement {from, to...}
    Prepositions of time and place {in, at, on...}
    Adverbs of manner {fast, here, outside ... }
    Comparatives {more, less ... }
    Superlatives {most, least ... }
    Adverbs of quantity {many, all... }
    Conditionals 
    Relative pronouns
    Relative adverbs
    Modal Verbs
    

    这个列表是我在网上找到的,但我确信有更好的标准标签可以做到这一点。

    2 回复  |  直到 10 年前
        1
  •  1
  •   Alessandro Suglia    10 年前

    我认为你需要看看斯坦福大学这个有影响力的NLP图书馆。

    POS tagging Java library

        2
  •  0
  •   OneMoreError    10 年前

    您可以使用 Wall Street Tree Bank / Penn Tree Bank (其完全由手工注释)作为用于设置POS标记的训练数据的语料库。

    从LDC购买,费用相当高,为1500美元以上: ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC99T42