![]() |
1
2
我有几点建议(尽管我不确定这是否是这个问题的正确答案): 答。由于您提到正在对非结构化文本文档进行聚类,并且没有得到很好的结果,因此在生成TF-IDF矩阵之前,可能需要应用典型的文本挖掘预处理任务,如停止词、标点符号删除、大小写缩减、词干提取。还有其他文本预处理任务,如删除数字、模式等,需要根据具体情况进行评估。 b。就二维可视化而言,需要将特征向量的维数降到2,经过预处理后,维数可能会从2367降到2367,但不会降很多。然后你可以使用 SVD 在TF-IDF矩阵上,检查它能解释的方差量。但是,减少到2个组件可能会导致大量的数据丢失,并且可视化将没有那么有意义。但你可以试试看结果是否合理。 c。如果文档中的文本内容很小,可以尝试手工制作描述文档的标记。这些标签的编号不应超过每个文档20个。使用这个新标签,您可以创建TF-IDF矩阵并执行SVD,这可能会在2D可视化中提供更多可解释的结果。 Silhouette measure 也可以考虑。 |
![]() |
2
1
因为这是给学校的,这里没有代码,只有想法。
对于人类来说,看一个24×2367矩阵的问题是,它太宽了。里面的数字看起来也像胡言乱语。但与计算机不同,人们更喜欢图像(计算机不在乎)。 24 x 2367远低于百万像素。但是24 x 2367有点太长了。把你的行填充到一个可以做成一个漂亮的矩形或近似的正方形(2400或2401应该可以),然后为每一行生成一个图像。然后,您可以查看单独的行,或者平铺它们以获得所有文档的完整6 x 4图像(请记住中间有一些填充)。如果像素是灰色的,请选择彩色填充)。 进一步想法:
|
![]() |
July · 如何定义数字间隔,然后四舍五入 1 年前 |
![]() |
user026 · 如何根据特定窗口的平均值(行数)创建新列? 1 年前 |
|
Ashok Shrestha · 需要追踪特定的颜色线并获取坐标 1 年前 |
![]() |
Nicote Ool · 在FastApi和Vue3中获得422 1 年前 |
|
Abdulaziz · 如何对集合内的列表进行排序[重复] 1 年前 |
![]() |
asmgx · 为什么合并数据帧不能按照python中的预期方式工作 1 年前 |