代码之家 › 专栏 › 技术社区 › Ankur Gupta

通过排除导航和chrome内容从HTML页面提取纯内容/文本

text-extraction html-content-extraction nlp artificial-intelligence html

Ankur Gupta · 技术社区 · 15 年前

我正在搜索新闻网站,想提取新闻标题、新闻摘要(第一段)等

我插入了WebKit解析器代码,以便将网页作为树轻松导航。为了消除导航和其他非新闻内容,我采用了文章的文本版本(减去HTML标记,WebKit提供了相同的API)。然后,我运行diff算法比较来自同一个网站的不同文章的文本,结果消除了相似的文本。这给了我内容减去常见的导航内容等。

尽管采用了上述方法,但在我的最后一篇文章中,我还是收到了不少垃圾。这导致提取错误的新闻摘要。误差率为10条中的5条,即50%。错误,如

你能

当做

安古尔古普塔

3 回复 | 直到 15 年前

Nathan Shively-Sanders 15 年前

对于问题(1),我不确定。我以前没做过。也许其他答案中的一个会有帮助。

对于问题(2),自动创建摘要不是一个开发领域。它通常被称为“句子选择”,因为现在的典型方法是只选择整个句子。

对于问题(3),从机器学习中创建摘要的基本方法是:

我最喜欢的机器学习参考是汤姆·米切尔的 Machine Learning . 它列出了实现步骤(3)的多种方法。

对于问题(4),我确信有几篇论文,因为我的顾问去年提到过,但是我不知道从哪里开始,因为我不是这个领域的专家。

Christian Kohlschütter 14 年前

你可以看看我的 boilerpipe 在谷歌代码上进行项目,并在你选择的网页上使用谷歌AppEngine上的Live Web应用程序进行测试(链接在那里)。

我正在研究这个领域,并写了一些关于从HTML页面中提取内容/删除样板文件的论文。例如,请参见“使用浅文本功能的样板文件检测”,并在videoscheases.net上观看相应的视频。本文应该给你一个很好的概述在这方面的最新进展。

干杯,

基督教的

Karthick 14 年前

我不知道它是如何工作的,但是看看可读性。这正是你想要的。

推荐文章

thenightmarechild92 · 使用正则表达式拆分具有唯一标题的子节

11 月前

lucasa.lisboa · 无法从“huggingface_hub”导入名称“split_torch_state_dict_into_shards”

11 月前

Zoltan Hernyak · C#中的英文文本标记化不是python是可能的吗?

1 年前

Toothpick Anemone · 字母“i”本身的正则表达式是什么?

1 年前

me0076 · 使用LLM提取多个实体

1 年前

Franck Dernoncourt · 当测试字符串100%包含查询字符串时,为什么fuzzywuzzy的process.extractBests不能给出100%的分数?

1 年前

jstark523 · 试图为我的应用程序找出最佳LLM选项

1 年前

lyanna · 检测同词句子的语义相异性

1 年前

Yash Babel · Microsoft Copilot-与Excel集成

1 年前

chetan sharma · 从每一行和a)、b)、c)、d)中删除,列类型为pandas.core.series。系列

1 年前