|
|
1
2
主题模型方法(主题提取)是无监督的方法。因此,您不需要知道每个文档都属于哪些类别(类)[ https://en.wikipedia.org/wiki/Topic_model] . 潜在Dirichlet分配(LDA)是一种主题建模方法。LDA将文档划分为主题,并为主题指定名称。[ https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation] 与聚类方法一样,主题模型需要输出集群的数量。但它们为每个输出集群分配一个主题名称。 与主题模型方法相比,文档分类方法(分类)受到监督。因此,他们需要类标签。[ https://en.wikipedia.org/wiki/Document_classification] |