代码之家  ›  专栏  ›  技术社区  ›  ch.elahe

文档术语矩阵中的最大术语长度

  •  3
  • ch.elahe  · 技术社区  · 7 年前

    想象一下由tm软件包创建的以下文档术语矩阵:

    > frequencies
    <<DocumentTermMatrix (documents: 255, terms: 470)>>
    Non-/sparse entries: 7693/112157
    Sparsity           : 94%
    Maximal term length: 10
    Weighting          : term frequency (tf)
    

    最大期限是多少?

    1 回复  |  直到 7 年前
        1
  •  2
  •   phiver    7 年前

    最大术语长度是文档术语矩阵中一个(或多个)术语的最大字符数。

    例子: 如果dtm中有5个单词,最长的一个是“编程”,那么最大的术语长度将是11。

    text <- c("word1", "word2", "word3", "word4", "programming")
    corp <- Corpus(VectorSource(text))
    term <- DocumentTermMatrix(corp)
    term
    
    <<DocumentTermMatrix (documents: 5, terms: 5)>>
    Non-/sparse entries: 5/20
    Sparsity           : 80%
    Maximal term length: 11
    Weighting          : term frequency (tf)
    
    推荐文章