代码之家 › 专栏 › 技术社区 › Alvin

如何使用Perl高效地提取HTML内容?

html-content-extraction perl html

Alvin · 技术社区 · 16 年前

我正在用Perl编写一个爬虫程序,它必须提取驻留在同一服务器上的网页的内容。我目前正在使用 HTML::Extract 模块来做这项工作,但我发现模块有点慢,所以我查看了它的源代码,发现它没有使用任何连接缓存来进行缓存 LWP::UserAgent

我最后的办法是抓住 HTML::Extract 的源代码,并将其修改为使用缓存,但如果可以的话,我真的希望避免这种情况。有人知道其他模块能更好地完成同样的工作吗?我基本上只需要抓取文本中的所有文本 <body> 元素,并移除HTML标记。

4 回复 | 直到 16 年前

Community Mohan Dere 9 年前

我用 pQuery 为我的网页抓取。但我也听说了一些好消息 Web::Scraper

这两个模块以及其他模块已出现在与您类似的问题的答案中:

hobbs 16 年前

HTML::Extract 非常基本的和无趣的。如果Draefun提到的模块对你不感兴趣,你可以做任何事情使用 LWP::UserAgent HTML::TreeBuilder

singingfish 16 年前

我一直在用 Web::Scraper 为了我刮擦的需要。它确实非常适合提取数据,因为您可以调用 ->scrape($html, $originating_uri)

brian d foy 16 年前

您需要实时执行此操作吗?效率低下对你有什么影响?您是否连续执行任务,以便在进入下一页之前必须提取一页?为什么要避免缓存?

你的爬虫能下载网页并把它们传递给其他东西吗?也许您的爬虫程序甚至可以并行运行,或者以某种分布式方式运行。

推荐文章

code-geek · Jquery根据单选按钮选择隐藏或显示文本字段

1 年前

Jamie · 在CSS链接的文件名中添加Jinja占位符

1 年前

ptownbro · 重叠分区标签,同时保持以下所有分区和内容就位

1 年前

Luke Frost IEng MIMechE · Bootstrap 5.3在Div中的项目位置没有如我所期望的那样显示

1 年前

Reegan · 使用Angular ngFor指令在html中渲染嵌套对象值

1 年前

wqyutv · 当找不到文件时,任何破坏错误的东西都不会出现,我该怎么解决这个问题?

1 年前

user29519291 · 为不同的变量创建一个带有可重用Click函数的简单菜单

1 年前

Gukkey · 在React中明确隐藏日期类型输入后,如果我单击父div,如何显示日期选择器?

1 年前

Lorenzo Bertolaccini · 在Angular项目中通过对话框后,在控制台中显示但在HTML中不显示的数据数组

1 年前

john Rizzo · 按钮背景颜色、悬停和活动状态存在问题

1 年前