代码之家  ›  专栏  ›  技术社区  ›  tsellon

Php中的HTML抓取[重复]

  •  39
  • tsellon  · 技术社区  · 17 年前

    我一直在使用正则表达式在PHP中进行一些HTML抓取。这是可行的,但结果是挑剔和脆弱的。有人使用过提供更强大解决方案的软件包吗?配置驱动的解决方案是理想的,但我并不挑剔。

    7 回复  |  直到 7 年前
        1
  •  28
  •   Espo    17 年前

    我建议 PHP Simple HTML DOM Parser 在您从页面中抓取HTML之后。它支持无效的HTML,并提供了一种非常简单的方法来处理HTML元素。

        2
  •  5
  •   John Douthat    17 年前

    如果你抓取的页面是有效的X(HT)ML,那么 PHP's built-in XML parsers 会做的。

    我在抓取PHP库方面没有取得多大成功。如果你喜欢冒险,你可以试试 simplehtmldom 我推荐 Hpricot 对于Ruby或 Beautiful Soup 对于Python,两者都是 极好的 HTML解析器。

        3
  •  5
  •   Orange Box    16 年前

    我还推荐“简单HTML DOM解析器”。“这是一个很好的选择,特别是如果你熟悉jQuery或JavaScript选择器,那么你会发现自己在家里。

    I have even blogged about it in the past.

        4
  •  5
  •   Marcelo Cantos    11 年前

    和我一起工作很开心 htmlSQL ,这并不是一个高端解决方案,但使用起来非常简单。

        5
  •  3
  •   datasn.io    17 年前

    使用PHP进行HTML抓取,我建议使用cURL+regexp或cURL+一些DOM解析器,尽管我个人使用cURL+regexp。如果你对正则表达式有深入的了解,它有时实际上更准确。

        6
  •  2
  •   Jan Gorman    17 年前

    我的成绩很好 Simple Html DOM Parser 上面也提到过。然后是 tidy Extension for PHP 这也非常有效。

        7
  •  2
  •   Steve    15 年前

    我不得不在主机1和1上使用curl。

    http://www.quickscrape.com/ 这就是我使用Simple DOM类想到的!