代码之家  ›  专栏  ›  技术社区  ›  AmbroseChapel

如何使用perl来抓取用javascript显示其内容的网站?

  •  2
  • AmbroseChapel  · 技术社区  · 15 年前

    我需要编写一个Perl脚本来清理网站。这个网站只能用javascript来清理,而且用户在windows上。

    我有办法 Win32::IE::Mechanize 在我的工作机器上,它有IE6,但后来我转到了我的上网本上,它有IE8,甚至连一个简单的页面都拿不到。

    win32::ie::mechanize是最新版本的ie吗?

    但是,更重要的是,考虑到最近的winxp机器,什么是最快速、最简单的方法来删除一个只通过javascript显示内容的站点?

    4 回复  |  直到 15 年前
        1
  •  3
  •   Zaid    15 年前

    WWW::Selenium .

    • 它允许您指定要使用的浏览器(IE和Firefox从一开始就受支持)
    • 它支持通过xpath元素、表id、文本(regex匹配!)网址
    • 它提供了用户交互选项的瑞士军刀,让您可以灵活地模拟最终用户浏览

    你需要下载 Selenium Remote Control 让它在后台运行以便模块工作。

    如果页面加载时间不可预测,则这可能不是一个好的选择。

        2
  •  0
  •   rjh    15 年前

    看一看 Win32::Watir . 它是一个更新的模块,明确支持IE6、7和8。

        3
  •  0
  •   Ether    15 年前

    我一点也没提到 WWW::Mechanize ,所以我会把它完整地提出来。 Selenium 也变得非常流行,可以在很多测试场景中使用。

        4
  •  0
  •   muhmuhten    15 年前

    WWW::Scripter 它的::plugin::javascript可能会帮助您。