代码之家  ›  专栏  ›  技术社区  ›  davetron5000

刮多框架网站

  •  3
  • davetron5000  · 技术社区  · 17 年前

    我正在审核我们现有的web应用程序,它大量使用 HTML frames wget 还是一点点脚本?

    3 回复  |  直到 17 年前
        1
  •  6
  •   JustinD    17 年前

    作为史蒂夫回答的补充:

    Span到任意主机-H

    H选项打开主机扩展,从而允许Wget的递归运行访问链接引用的任何主机。除非应用足够的递归限制条件,否则这些外部主机通常会链接到更多的主机,以此类推,直到Wget最终吸收的数据远远超过您的预期。

    限制跨越到某些域-D

    D选项允许您指定要遵循的域,从而将递归仅限于属于这些域的主机。显然,这只有与-H结合使用才有意义。

    一个典型的例子是下载www.server.com的内容,但允许从images.server.com等下载:

          wget -rH -Dserver.com http://www.server.com/
    

    可以通过用逗号分隔指定多个地址,

    e、 g.-Ddomain1.com,domain2.com。

    摘自: wget manual

        2
  •  1
  •   Steve Moyer    17 年前
    wget --recursive --domains=www.mysite.com http://www.mysite.com
    

    这表明递归爬网也应该遍历到帧和iframe中。请注意将递归的范围仅限于您的网站,因为您可能不想对整个网站进行爬网。

        3
  •  1
  •   Zebra North    17 年前

    wget有一个-r选项使其递归,请尝试 (如果字体难以阅读:最后一部分是小写L,后跟数字1)