代码之家 › 专栏 › 技术社区 › Guillaume Chevalier

在SIDKIT学习的LDA实现中,“困惑”(或“分数”)应该上升还是下降?

log-likelihood lda statistics scikit-learn python

Guillaume Chevalier · 技术社区 · 7 年前

我想知道什么是困惑和得分意味着在LDA实现的SCIKIT学习。这些功能是模糊的。

至少,我需要知道,当模型更好时,这些值是增加还是减少。我已经找过了,但不清楚。我觉得这种困惑应该消失,但我想清楚地解释一下这些价值观应该如何上升或下降。

1 回复 | 直到 7 年前

alephnerd 7 年前

困惑是衡量一个模型对一个样本的预测程度。

根据 Latent Dirichlet Allocation 作者:Blei、Ng和Jordan,

〔w〕计算出一个保持测试集的困惑来评估模型。在语言建模中,惯例所使用的困惑在测试数据的可能性中单调递减,并且代数等价于每个单词似然的几何平均值的倒数。较低的困惑得分表示更好的泛化性能。

这可以从本文的下图中看出:

在埃森斯,因为困惑等于几何平均值的倒数,a 降低困惑意味着数据是更多很可能。因此,随着主题数量的增加困惑模型的数量应该减少。

推荐文章

V. Déhaye · 尝试更新gensim的LdaModel时的索引器错误

7 年前

Adham Enaya · 使用CountVectorizer为LDA主题模型准备数据集

7 年前

MMM · 使用大型语料库python gensim的极慢LDA训练模型

7 年前

raksha · 如何查找文档的前n个主题

7 年前

user7120305 · TypeError:\uu init\uuuu()获取了意外的关键字参数“n\u components”

7 年前

mel · 如何使用scikit learn获取特定文档的主题概率?

8 年前

Monica Muller · 将主题模型输出转换为JSON

9 年前

Ben · LDA:为什么要对新文档进行推理抽样?

9 年前

myname · Python中使用LDA模型获取样本外文档的主题权重

9 年前

Utku Pasha · 我可以将LDA(潜在狄利克雷分配)应用于不同的语言语料库吗?

10 年前