![]() |
1
0
就您的示例数据而言,似乎存在一个问题,因为6到10个是非信息性的停止词,其中一些甚至是停止词,例如“the”。 因此,您应该尝试的第一步是删除停止词。 回到您的问题,在top-K关键字提取中选择K值没有最佳实践。这在不同的文档中有所不同,因为一些文档比其他文档更具信息性(通常是多主题的),这意味着这些文档的K值应该更高。 确定停止点的一种方法是检查连续项之间tfidf值的相对差异,然后在该相对差异高于阈值的点停止,这表明您输出的关键信息量大幅下降。 假设您已经为每个术语计算了tfidf分数,并按照其值的降序对它们进行了排序,请计算以下内容 在添加每个新学期之前 如果上述表达式为true,其中delta是预定义的阈值,请添加新的术语。。。因为新术语的信息量是 足够近 已经在列表中的。否则,如果表达式为false,即差值大于delta,则停止。 注意:您可以使用不同的术语评分函数。。。不仅仅是tfidf。 |
![]() |
J Cena · 如何使用DBpedia属性构建主题层次结构? 7 年前 |
![]() |
kouta · 标记化时从法语冠词缩略中删除特殊撇号 7 年前 |
![]() |
r1d1 · 主题提取和文本分类在概念上有什么区别? 7 年前 |
![]() |
raksha · 如何查找文档的前n个主题 7 年前 |
![]() |
Monica Muller · 将主题模型输出转换为JSON 9 年前 |
![]() |
Ben · LDA:为什么要对新文档进行推理抽样? 9 年前 |