代码之家  ›  专栏  ›  技术社区  ›  xRobot

如何用javascript编写这个爬虫程序?

  •  1
  • xRobot  · 技术社区  · 14 年前

    想法很简单:

    想象一下,一个简单的白色页面上有一个带有单个输入标签的表单(比如google主页)。 当我以这种形式插入blogpost的链接时,javascript爬虫会搜索blogpost网页中的第一个图像(通过ajax),将其显示在白页中,并将其保存在我的服务器上。

    我要用什么功能来爬虫?

    2 回复  |  直到 14 年前
        1
  •  3
  •   Darin Dimitrov    14 年前

    由于 cross cross domain restrictions 纯javascript爬虫是不常见的,实际上是可行的。您可能需要设置一个服务器端脚本,该脚本将接收表单中输入的地址,获取远程资源的内容并解析html以获得图像。

        2
  •  2
  •   Murat Çorlu beardofprey    14 年前

    jsonp )

    我可以建议你用 YQL . 你只需要编写Javascript就可以用Yahoo的YQL库抓取你想要的每一个页面。Yahoo服务器获取您请求的URL,解析HTML并发送您请求的部分文档。