代码之家  ›  专栏  ›  技术社区  ›  Dallas Clark

捕获URL的最佳方法是什么?

  •  0
  • Dallas Clark  · 技术社区  · 15 年前

    我正在努力寻找收集URL的最佳方法,我可以创建自己的小爬虫程序,但我的服务器需要几十年的时间来爬过所有的互联网,所需的带宽将是巨大的。另一种想法是使用谷歌的搜索API或雅虎的搜索API,但这并不是一个很好的解决方案,因为它需要在我得到结果之前执行搜索。

    其他想法包括询问DNS服务器和请求URL列表,但DNS服务器可以限制/限制我的请求,甚至禁止我一起使用。目前我询问DNS服务器的知识非常有限,所以我不知道这是不是最好的方法。

    我只想要一个大量的URL列表,但是我希望在将来不碰到砖墙的情况下构建这个列表。有什么想法吗?

    我开始这个项目是为了学习python,但这与问题无关。

    4 回复  |  直到 15 年前
        1
  •  0
  •   Geoff Fritz    15 年前

    您可以注册以访问整个.com和.net区域文件,网址为 Verisign

    我没有读过使用条款的细则,也不知道它的价格(如果有的话)。不过,这会给你一个 巨大的 要用作URL的活动域列表。

        2
  •  2
  •   miku    15 年前
    $ wget http://s3.amazonaws.com/alexa-static/top-1m.csv.zip
    
        3
  •  0
  •   Dathan    15 年前

    质量有多大?一个好的起点是 http://www.alexa.com/topsites .他们提供了前1000000个网站的下载(按排名机制)。然后,您可以通过访问Google并抓取查询结果来扩展此列表。 link: url 对于列表中的每个URL。

        4
  •  0
  •   Niklas Rosencrantz    15 年前

    现代术语现在是uri和urn,url是缩小/过时的。我会扫描 sitemap 在一个文件中包含多个地址并研究经典文本的文件 spiders, wanderes, brokers and bots RFC 3305 (附录B.P 50)定义URI regex

    推荐文章