代码之家 › 专栏 › 技术社区 › PineNuts0

python pandas:数据帧中整个列的NLTK语音标记部分

part-of-speech nltk dataframe pandas python

0

PineNuts0 · 技术社区 · 7 年前

我有下面的示例数据框架。它已经被标记化了。

No  category    problem_definition_stopwords
175 2521       ['coffee', 'maker', 'brewing', 'properly', '2', '420', '420', '420']
211 1438       ['galley', 'work', 'table', 'stuck']
912 2698       ['cloth', 'stuck']
572 2521       ['stuck', 'coffee']

我想在这个数据框架上做部分语音标记。下面是我的代码的开头。它正在出错:

from nltk.corpus import state_union
from nltk.tokenize import PunktSentenceTokenizer 

train_text = state_union.raw(df['problem_definition_stopwords'])

误差

TypeError: join() argument must be str or bytes, not 'list'

我期望的结果如下:“xxx”是一个标记化的单词,在它是语音的一部分(即nnp)之后:

[('xxx'、'nnp')、('xxx'、'vbd')、('xxx'、'pos')]

1 回复 | 直到 7 年前

1

0

Edward Mendez 7 年前

将问题“定义”的stopwords转换为字符串,并传递给nltk.sent“标记化”,如果您试图标记化并使用pos“标记”获取pos。