代码之家 › 专栏 › 技术社区 › Christian Davén

用常用词监控品牌

linguistics data-mining language-agnostic algorithm

Christian Davén · 技术社区 · 16 年前

我在想也许Bayes可以工作,但是还有其他的方法吗?

6 回复 | 直到 16 年前

Roman 16 年前

如果这不是唯一的词,那么我建议下一种方法。

让我们假设我们的关键词是Java。然后至少有两类:关于节目和关于印度尼西亚的旅游。我们对第一个感兴趣。

让我们看一篇关于Java的小文章(可能来自书籍或维基百科)。然后让我们假设一些阈值(例如,0.7)。然后让我们将文本与不同的页面进行比较(最快的方法之一是使用 Classic Vector Space Model 算法,您可以自己实现它,也可以在google中找到它的实现)。然后将结果与阈值进行比较,并过滤较弱的结果。

关于使用贝叶斯算法:在我看来,这是一种不错的方法。但是你应该非常小心地“教授”你的算法,因为几个不好的输入会破坏整个工作。

mouviciel 16 年前

Community Mohan Dere 9 年前

你要找的术语是 概念学习 或 . 字眼一个出现在许多页面中,但通常指概念指一个数量。只是很少提到一个品牌的概念(另一个经常使用的例子是太阳,如星体天体太阳,或名为太阳的公司。

我知道 Ari Rappoport 在这个问题上有很多研究。实际上,这可以归结为 mouviciel's answer ,但Ari的研究也是关于如何自动推断出需要查找哪些相关词语,以便区分一个是数字还是品牌。

Sylvestre Equy 16 年前

我将维基百科视为一个巨大的本体(其中每个超链接都是源节点和结束节点之间的关系),以此来处理问题。

编辑:一个非常粗略的算法,以“Java”为例:

在维基百科中查询“Java”。在…之间至少)岛和编程
获取这些基础的输入/输出节点页面(来自基本页面超链接)。
计算每组到页面的“距离”,并找出这些距离中的最小值。

您将使用的距离非常主观,必须稍微调整以满足您的需要。您可能也很难获得每个页面的“核心”,因为解析HTML将是一大难题。

none none 16 年前

我建议采用无监督的方法解决这个问题:

获取尽可能多的文档,在正确的上下文中描述“一”,并创建语料库。
对照标准英语语料库,在语料库中查找统计上不可能的短语。

这个网站就是一个很好的例子
http://sip.s-anand.net/?url=http://en.wikipedia.org/wiki/Apple_Inc .

正如您所见,ipod、powerpc等特定品牌的术语很容易被过滤掉。

一旦您提取了这些信息,您就可以创建一个Google alert或类似的类似信息(如果Google alerts过于简单化的话),并使用如下查询监视新文章。

当然,考虑到这种方法是无监督的,它可能不是非常有效,但应该可以完成这项工作。

Daniel Situnayake 16 年前

另一种方法是在中查找页面 Google Directory ,它有“按主题分类的网站”。您可能会使用每个页面的类别信息来决定它是关于什么的。