代码之家 › 专栏 › 技术社区 › Rob Wilkerson

评估“值”属性

nlp

Rob Wilkerson · 技术社区 · 15 年前

我正在尝试使用 OpenAmplify API 评估URI的内容。重点是引出与本文真正相关的主题。不幸的是,我回来的主题分析是:

这两种质量对于我所要做的工作都不是非常有用,因为信噪比严重偏向于噪声。我正在分析网络内容,因此有一定数量(可能是大量)的无关内容(广告等)涉及其中。我明白了。

尽管如此,许多被返回的主题要么是无用的(完全不感性的,甚至是文字),要么是不相关的(比如,那是从哪里来的?)或者太过细微,无法提供任何意义或见解。我可以用价值 ,嗯,为每个域、子域、主题等返回的值,但我不知道它是什么意思。

当然我明白价值这是一个“单词在文本中的突出程度”的衡量标准,但是数字本身似乎完全是任意的,在某种程度上,我阻止我说“忽略任何值小于50的词”,并让它具有任何真正的意义。

是否有任何范围标准可以帮助我了解如何使用主题的值得分作为筛选阈值?或者,是否还有其他领域可以用于这种过滤?

谢谢你的帮助。

1 回复 | 直到 15 年前

Rob Wilkerson 15 年前

从其他渠道,我了解到 value 无法按我希望的方式评估属性。对于不同的信号,它意味着不同的事物,而没有一个是以对这种需求有意义的方式定义的。

推荐文章

thenightmarechild92 · 使用正则表达式拆分具有唯一标题的子节

1 年前

lucasa.lisboa · 无法从“huggingface_hub”导入名称“split_torch_state_dict_into_shards”

1 年前

Zoltan Hernyak · C#中的英文文本标记化不是python是可能的吗?

1 年前

Toothpick Anemone · 字母“i”本身的正则表达式是什么?

1 年前

me0076 · 使用LLM提取多个实体

1 年前

Franck Dernoncourt · 当测试字符串100%包含查询字符串时,为什么fuzzywuzzy的process.extractBests不能给出100%的分数?

1 年前

jstark523 · 试图为我的应用程序找出最佳LLM选项

2 年前

lyanna · 检测同词句子的语义相异性

2 年前

Yash Babel · Microsoft Copilot-与Excel集成

2 年前

chetan sharma · 从每一行和a)、b)、c)、d)中删除,列类型为pandas.core.series。系列

2 年前