代码之家 › 专栏 › 技术社区 › tsellon

Php中的HTML抓取[重复]

screen-scraping html php

tsellon · 技术社区 · 17 年前

我一直在使用正则表达式在PHP中进行一些HTML抓取。这是可行的,但结果是挑剔和脆弱的。有人使用过提供更强大解决方案的软件包吗?配置驱动的解决方案是理想的,但我并不挑剔。

7 回复 | 直到 7 年前

Espo 17 年前

我建议 PHP Simple HTML DOM Parser 在您从页面中抓取HTML之后。它支持无效的HTML,并提供了一种非常简单的方法来处理HTML元素。

John Douthat 17 年前

如果你抓取的页面是有效的X(HT)ML,那么 PHP's built-in XML parsers 会做的。

我在抓取PHP库方面没有取得多大成功。如果你喜欢冒险,你可以试试 simplehtmldom 我推荐 Hpricot 对于Ruby或 Beautiful Soup 对于Python,两者都是 极好的 HTML解析器。

Orange Box 16 年前

我还推荐“简单HTML DOM解析器”。“这是一个很好的选择,特别是如果你熟悉jQuery或JavaScript选择器,那么你会发现自己在家里。

Marcelo Cantos 11 年前

和我一起工作很开心 htmlSQL ,这并不是一个高端解决方案,但使用起来非常简单。

datasn.io 17 年前

使用PHP进行HTML抓取,我建议使用cURL+regexp或cURL+一些DOM解析器,尽管我个人使用cURL+regexp。如果你对正则表达式有深入的了解,它有时实际上更准确。

Jan Gorman 17 年前

我的成绩很好 Simple Html DOM Parser 上面也提到过。然后是 tidy Extension for PHP 这也非常有效。

Steve 15 年前

我不得不在主机1和1上使用curl。

http://www.quickscrape.com/ 这就是我使用Simple DOM类想到的!

推荐文章

Flissi Hamed · 从抓取aliexpress到使用chromedp的无头浏览器

11 月前

NoUsername9 · 使用Apify和Puppeter抓取URL

5 年前

Stphn · 使用Python将多个URL中的不同变量刮到一个CSV文件中

7 年前

Alok Mishra · 如何自动点击“内容”按钮

7 年前

Stphn · 使用BeautifulSoup(在其他两个标记之间)从<a>中删除一系列链接

7 年前

sudonym · 内存泄漏在哪里?如何在python中的多处理过程中超时线程?

7 年前

sudonym · 如何使用仅XPath正则表达式模式刮取无ID的网站元素

8 年前

Ike · Python Selenium错误-当webdriver

8 年前

ilyas · 使用网站查询获取数据[已关闭]

8 年前

David Norway · 使用python在网站上清除所有使用过的Javascript

8 年前