|
1
5
如果这不是唯一的词,那么我建议下一种方法。 让我们假设我们的关键词是Java。然后至少有两类:关于节目和关于印度尼西亚的旅游。我们对第一个感兴趣。 让我们看一篇关于Java的小文章(可能来自书籍或维基百科)。然后让我们假设一些阈值(例如,0.7)。然后让我们将文本与不同的页面进行比较(最快的方法之一是使用 Classic Vector Space Model 算法,您可以自己实现它,也可以在google中找到它的实现)。然后将结果与阈值进行比较,并过滤较弱的结果。 关于使用贝叶斯算法:在我看来,这是一种不错的方法。但是你应该非常小心地“教授”你的算法,因为几个不好的输入会破坏整个工作。
|
|
|
2
4
|
|
|
3
2
你要找的术语是 概念学习 或 . 字眼 一个 出现在许多页面中,但通常指 概念 指一个数量。只是很少提到一个品牌的概念(另一个经常使用的例子是太阳,如星体天体太阳,或名为太阳的公司。 我知道 Ari Rappoport 在这个问题上有很多研究。实际上,这可以归结为 mouviciel's answer ,但Ari的研究也是关于如何自动推断出需要查找哪些相关词语,以便区分一个是数字还是品牌。 |
|
|
4
1
我将维基百科视为一个巨大的本体(其中每个超链接都是源节点和结束节点之间的关系),以此来处理问题。 编辑:一个非常粗略的算法,以“Java”为例:
您将使用的距离非常主观,必须稍微调整以满足您的需要。您可能也很难获得每个页面的“核心”,因为解析HTML将是一大难题。 |
|
|
5
1
我建议采用无监督的方法解决这个问题:
这个网站就是一个很好的例子
正如您所见,ipod、powerpc等特定品牌的术语很容易被过滤掉。 一旦您提取了这些信息,您就可以创建一个Google alert或类似的类似信息(如果Google alerts过于简单化的话),并使用如下查询 监视新文章。 当然,考虑到这种方法是无监督的,它可能不是非常有效,但应该可以完成这项工作。 |
|
|
6
0
另一种方法是在中查找页面 Google Directory ,它有“按主题分类的网站”。您可能会使用每个页面的类别信息来决定它是关于什么的。 |