![]() |
1
5
一个非常好的屏幕抓取库是 mechanize 我相信这是用Perl编写的原始库的克隆。总之,这和 ClientForm 模块,还有一些来自美汤的额外帮助,你应该离开。 我已经用Python编写了大量的屏幕抓取代码,这些模块是最有用的。大部分的东西 机械化 理论上可以通过使用 urllib2 或 httplib 来自标准库的模块,但是 机械化 使这一切变得轻而易举:本质上,它为您提供了一个程序化的浏览器(注意,它不需要一个浏览器来工作,但它为您提供了一个API,其行为类似于一个完全可定制的浏览器)。 在后期处理方面,我在美汤方面取得了很大的成功,但是 lxml.html 也是个不错的选择。 基本上,您可以在Python中肯定地做到这一点,并且您的结果应该非常适合使用现有的各种工具。 |
![]() |
2
2
你可以通过
此外,如果表格
获取返回的HTML数据的标准是 BeautifulSoup . |
![]() |
3
0
我看到另外两个答案已经提到了所有主要图书馆的选择。只要被抓取的站点没有大量使用javascript,也就是说。如果它是一个javascript重的站点,并且依赖于JS来获取和显示数据(例如通过Ajax),那么您的问题就更难解决一个数量级的问题;在这种情况下,我建议从 crowbar ,一些定制 diggstripper 或 selenium 等。 您将不得不在javascript中做大量的工作,可能还需要专门的工作来处理所讨论的(假设是JS重的)站点的细节,这取决于它使用的JS框架等;这就是为什么如果是这样的话,工作会更加困难的原因。但在任何情况下,您都可能最终得到(至少部分)显示的站点页面的本地HTML副本,并以抓取结束。 那些 使用其他已推荐的工具进行复制。祝你好运:愿你所搜刮的网站永远是javascript轻!-) |
![]() |
Chris · jQuery多种形式。需要在“提交”时捕获$(this)表单 10 月前 |
![]() |
girdeux · Django:在Form的init方法中使用小部件? 10 月前 |
|
Charlie · 为什么我的复选框和单选按钮的间距很奇怪? 11 月前 |