代码之家  ›  专栏  ›  技术社区  ›  Maksim Khaitovich

Sklearn-从文本中提取特征-通过合并复数和单数形式规范化文本特征

  •  1
  • Maksim Khaitovich  · 技术社区  · 8 年前

    我正在使用sklearn进行一些文本分类。

    根据前面提供的答案,我需要执行词干分析。下面是一个示例代码,它将数据帧DF的“review”列中的所有单词都派生出来,然后我将其用于矢量化和分类。以防有人发现它有用。

    from nltk.stem.snowball import SnowballStemmer
    
    stemmer = SnowballStemmer("english")
    
    
    df['review_token']=df['review'].apply(lambda x : filter(None,x.split(" ")))
    
    df['review_stemmed']=df['review_token'].apply(lambda x : [stemmer.stem(y) for y in x])
    
    df['review_stemmed_sentence']=df['review_stemmed'].apply(lambda x : " ".join(x))
    
    1 回复  |  直到 3 年前
        1
  •  2
  •   user2314737    8 年前

    我认为您需要的是词干处理,即删除具有公共根的单词的结尾,这是预处理文本数据的基本操作之一。

    https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html