代码之家 › 专栏 › 技术社区 › Bhavya

从R中的dtm中按每个文档的频率提取顶部特征

term-document-matrix tm text-mining r

Bhavya · 技术社区 · 8 年前

我有一个dtm,希望从文档术语矩阵中按频率提取每个文档的前5个术语。

我有一个 dtm 使用tm软件包构建

  Terms                     
Docs aaaa aac abrt abused accept accepted
1 0 0 0 0 0 0 
2 0 0 0 0 0 0
3 0 0 0 0 0 0
4 0 0 0 0 0 0
5 0 0 0 0 0 0
6 0 0 0 0 0 0

所需输出应为以下形式:

Id   
1   Term1 Term2 Term3 Term4 Term5
2   Term1 Term2 Term3 Term4 Term5
and so on for all the documents.

我已经尝试了其他来源提供的所有解决方案喜欢 Make dataframe of top N frequent terms for multiple corpora using tm package in R (转换为tdm,并试图将其转换为输出形式,但不起作用)和其他方法,但似乎不起作用。

1 回复 | 直到 8 年前

lukeA 8 年前

使用Quanteda:

library(quanteda)
txt <- c("hello world world fizz", "foo bar bar buzz")
dfm <- dfm(txt)
topfeatures(dfm, n = 2, groups = seq_len(ndoc(dfm)))
# $`1`
# world hello 
# 2     1 
# 
# $`2`
# bar foo 
# 2   1

您也可以在 DocumentTermMatrix 和 dfm .

或者使用经典 tm

library(tm)
packageVersion("tm")
# [1] â0.7.1â
txt <- c(doc1="hello world world", doc2="foo bar bar fizz buzz")
dtm <- DocumentTermMatrix(Corpus(VectorSource(txt)))
n <- 5
(top <- findMostFreqTerms(dtm, n = n))
# $doc1
# world hello 
# 2     1 
# 
# $doc2
# bar buzz fizz  foo 
# 2    1    1    1 
do.call(rbind, lapply(top, function(x) { x <- names(x);length(x)<-n;x }))
# [,1]    [,2]    [,3]   [,4]  [,5]
# doc1 "world" "hello" NA     NA    NA  
# doc2 "bar"   "buzz"  "fizz" "foo" NA

findMostFreqTerms 从开始提供 tm version 0.7-1 .

推荐文章

Hackerds · 在正则表达式中捕获多个组不会返回任何结果

8 年前

BARIK FATI · 如何构建hashtags语料库(文本挖掘)

8 年前

Max TC · 在R中匹配并替换字符串中拼写错误的单词

8 年前

Bhavya · 从R中的dtm中按每个文档的频率提取顶部特征

8 年前

FF0605 · 如何在python中将多个句子转换为二元图

8 年前

Ravindra Nadh · twitter用户名的R正则表达式

8 年前

Jacek Kotowski · 使用哈希字典的柠檬化函数不适用于R中的tm包

8 年前

KerryChu · python字符串索引超出范围(一个函数在一个数据上工作不会在另一个数据上工作

8 年前

JPV · 使用正则表达式提取不同格式的日期并对其进行排序-pandas

8 年前

jiji · 为什么我不能使用“TermDocumentMatrix”?

8 年前