代码之家  ›  专栏  ›  技术社区  ›  Christian Davén

用常用词监控品牌

  •  13
  • Christian Davén  · 技术社区  · 16 年前

    我在想也许Bayes可以工作,但是还有其他的方法吗?

    6 回复  |  直到 16 年前
        1
  •  5
  •   Roman    16 年前

    如果这不是唯一的词,那么我建议下一种方法。

    让我们假设我们的关键词是Java。然后至少有两类:关于节目和关于印度尼西亚的旅游。我们对第一个感兴趣。

    让我们看一篇关于Java的小文章(可能来自书籍或维基百科)。然后让我们假设一些阈值(例如,0.7)。然后让我们将文本与不同的页面进行比较(最快的方法之一是使用 Classic Vector Space Model 算法,您可以自己实现它,也可以在google中找到它的实现)。然后将结果与阈值进行比较,并过滤较弱的结果。


    关于使用贝叶斯算法:在我看来,这是一种不错的方法。但是你应该非常小心地“教授”你的算法,因为几个不好的输入会破坏整个工作。

        2
  •  4
  •   mouviciel    16 年前

        3
  •  2
  •   Community Mohan Dere    9 年前

    你要找的术语是 概念学习 . 字眼 一个 出现在许多页面中,但通常指 概念 指一个数量。只是很少提到一个品牌的概念(另一个经常使用的例子是太阳,如星体天体太阳,或名为太阳的公司。

    我知道 Ari Rappoport 在这个问题上有很多研究。实际上,这可以归结为 mouviciel's answer ,但Ari的研究也是关于如何自动推断出需要查找哪些相关词语,以便区分一个是数字还是品牌。

        4
  •  1
  •   Sylvestre Equy    16 年前

    我将维基百科视为一个巨大的本体(其中每个超链接都是源节点和结束节点之间的关系),以此来处理问题。

    编辑:一个非常粗略的算法,以“Java”为例:

    • 在维基百科中查询“Java”。在…之间 至少)岛和编程
    • 获取这些基础的输入/输出节点 页面(来自基本页面超链接)。
    • 计算每组到页面的“距离”,并找出这些距离中的最小值。

    您将使用的距离非常主观,必须稍微调整以满足您的需要。您可能也很难获得每个页面的“核心”,因为解析HTML将是一大难题。

        5
  •  1
  •   none none    16 年前

    我建议采用无监督的方法解决这个问题:

    1. 获取尽可能多的文档,在正确的上下文中描述“一”,并创建语料库。

    2. 对照标准英语语料库,在语料库中查找统计上不可能的短语。

    这个网站就是一个很好的例子
    http://sip.s-anand.net/?url=http://en.wikipedia.org/wiki/Apple_Inc .

    正如您所见,ipod、powerpc等特定品牌的术语很容易被过滤掉。

    一旦您提取了这些信息,您就可以创建一个Google alert或类似的类似信息(如果Google alerts过于简单化的话),并使用如下查询 监视新文章。

    当然,考虑到这种方法是无监督的,它可能不是非常有效,但应该可以完成这项工作。

        6
  •  0
  •   Daniel Situnayake    16 年前

    另一种方法是在中查找页面 Google Directory ,它有“按主题分类的网站”。您可能会使用每个页面的类别信息来决定它是关于什么的。

    推荐文章