代码之家  ›  专栏  ›  技术社区  ›  Ankur Gupta

通过排除导航和chrome内容从HTML页面提取纯内容/文本

  •  4
  • Ankur Gupta  · 技术社区  · 15 年前

    我正在搜索新闻网站,想提取新闻标题、新闻摘要(第一段)等

    我插入了WebKit解析器代码,以便将网页作为树轻松导航。为了消除导航和其他非新闻内容,我采用了文章的文本版本(减去HTML标记,WebKit提供了相同的API)。然后,我运行diff算法比较来自同一个网站的不同文章的文本,结果消除了相似的文本。这给了我内容减去常见的导航内容等。

    尽管采用了上述方法,但在我的最后一篇文章中,我还是收到了不少垃圾。这导致提取错误的新闻摘要。误差率为10条中的5条,即50%。错误,如

    你能

    1. 建议提取纯含量的替代策略,

    2. 学习自然语言处理有助于从这些文章中提取正确的摘要吗?

    3. 你将如何处理上述问题?.

    4. 这些研究论文是相同的吗?.

    当做

    安古尔古普塔

    3 回复  |  直到 15 年前
        1
  •  2
  •   Nathan Shively-Sanders    15 年前

    对于问题(1),我不确定。我以前没做过。也许其他答案中的一个会有帮助。

    对于问题(2),自动创建摘要不是一个开发领域。它通常被称为“句子选择”,因为现在的典型方法是只选择整个句子。

    对于问题(3),从机器学习中创建摘要的基本方法是:

    1. 创建现有摘要的文集
    2. 以有用的方式注释摘要。例如,您可能想指出是否选择了原文中的每个句子,以及为什么选择(或为什么不选择)。
    3. 在语料库上训练某种分类器,然后用它对新文章中的句子进行分类。

    我最喜欢的机器学习参考是汤姆·米切尔的 Machine Learning . 它列出了实现步骤(3)的多种方法。

    对于问题(4),我确信有几篇论文,因为我的顾问去年提到过,但是我不知道从哪里开始,因为我不是这个领域的专家。

        2
  •  3
  •   Christian Kohlschütter    14 年前

    你可以看看我的 boilerpipe 在谷歌代码上进行项目,并在你选择的网页上使用谷歌AppEngine上的Live Web应用程序进行测试(链接在那里)。

    我正在研究这个领域,并写了一些关于从HTML页面中提取内容/删除样板文件的论文。例如,请参见“使用浅文本功能的样板文件检测”,并在videoscheases.net上观看相应的视频。本文应该给你一个很好的概述在这方面的最新进展。

    干杯,

    基督教的

        3
  •  0
  •   Karthick    14 年前

    我不知道它是如何工作的,但是看看可读性。这正是你想要的。