我正在尝试使用
OpenAmplify
API
评估URI的内容。重点是引出与本文真正相关的主题。不幸的是,我回来的主题分析是:
-
巨大的
-
变化的
这两种质量对于我所要做的工作都不是非常有用,因为信噪比严重偏向于噪声。我正在分析网络内容,因此有一定数量(可能是大量)的无关内容(广告等)涉及其中。我明白了。
尽管如此,许多被返回的主题要么是无用的(完全不感性的,甚至是文字),要么是不相关的(比如,那是从哪里来的?)或者太过细微,无法提供任何意义或见解。我可以用
价值
,嗯,为每个域、子域、主题等返回的值,但我不知道它是什么意思。
当然我明白
价值
这是一个“单词在文本中的突出程度”的衡量标准,但是数字本身似乎完全是任意的,在某种程度上,我阻止我说“忽略任何值小于50的词”,并让它具有任何真正的意义。
是否有任何范围标准可以帮助我了解如何使用主题的值得分作为筛选阈值?或者,是否还有其他领域可以用于这种过滤?
谢谢你的帮助。