代码之家 › 专栏 › 技术社区 › PineNuts0

Python Pandas NLTK如何将端口词干分析器应用于已标记化的Dataframe列

stemming nltk pandas python

0

PineNuts0 · 技术社区 · 7 年前

我有以下示例数据集:

No  category    problem_definition
175 2521        ['coffee', 'maker', 'brewing', 'properly', '420']
211 1438        ['galley', 'work', 'table', 'stuck']
912 2698        ['cloth', 'floor', 'coming', 'aft']
572 2521        ['compartment', 'door', 'stuck']

problem_definition字段已经经历了停止字删除和标记化。现在我正试图将端口词干分析器应用于problem_definition列。

我尝试了以下代码:

from nltk.stem import PorterStemmer

ps = PorterStemmer()

df['problem_definition_stemmed'] = df['problem_definition_stopwords'].apply(lambda x : [PorterStemmer.stem(y) for y in x])

我得到以下错误:

TypeError: 'PorterStemmer' object is not callable

1 回复 | 直到 7 年前

1

0

DYZ 7 年前

PosrterStemmer 是类构造函数。它没有方法 .stem . 实际的词干分析器是 ps . PorterStemmer.stem(y) 必须是 ps.stem(y) .