代码之家  ›  专栏  ›  技术社区  ›  PineNuts0

Python Pandas NLTK如何将端口词干分析器应用于已标记化的Dataframe列

  •  0
  • PineNuts0  · 技术社区  · 7 年前

    我有以下示例数据集:

    No  category    problem_definition
    175 2521        ['coffee', 'maker', 'brewing', 'properly', '420']
    211 1438        ['galley', 'work', 'table', 'stuck']
    912 2698        ['cloth', 'floor', 'coming', 'aft']
    572 2521        ['compartment', 'door', 'stuck']
    

    problem_definition字段已经经历了停止字删除和标记化。现在我正试图将端口词干分析器应用于problem_definition列。

    我尝试了以下代码:

    from nltk.stem import PorterStemmer
    
    ps = PorterStemmer()
    
    df['problem_definition_stemmed'] = df['problem_definition_stopwords'].apply(lambda x : [PorterStemmer.stem(y) for y in x])
    

    我得到以下错误:

    TypeError: 'PorterStemmer' object is not callable
    
    1 回复  |  直到 7 年前
        1
  •  0
  •   DYZ    7 年前

    PosrterStemmer 是类构造函数。它没有方法 .stem . 实际的词干分析器是 ps . PorterStemmer.stem(y) 必须是 ps.stem(y) .

    推荐文章