代码之家  ›  专栏  ›  技术社区  ›  Bryan Migliorisi

网站爬行速度慢

  •  6
  • Bryan Migliorisi  · 技术社区  · 16 年前

    有没有办法强迫蜘蛛放慢它对网站的蜘蛛爬行速度?有什么可以放在headers或robots.txt中的吗?

    我想我记得读过一些关于这种可能性的东西,但现在什么都找不到了。

    4 回复  |  直到 13 年前
        1
  •  16
  •   Robert Harvey    16 年前

    如果你指的是Google,你可以通过使用你的Google网站管理员帐户来控制Google蜘蛛在你网站上的速度。( Google Webmaster Tools )

    还有这个,你可以放在robots.txt中。

    User-agent: *
    Crawl-delay: 10
    

    其中,爬行延迟被指定为每个页面爬行之间的秒数。当然,就像robots.txt中的其他东西一样,爬虫必须尊重它,所以ymmv。

        2
  •  5
  •   ZoogieZork    16 年前

    除了为GoogleBot使用Google网站管理员工具(请参见 罗伯特·哈维 答案是, Yahoo! Bing 支持非标准 Crawl-delay 指令 robots.txt :

    http://en.wikipedia.org/wiki/Robots.txt#Nonstandard_extensions

    然而,当推到推的时候,一个行为不端的机器人攻击你的站点,只需要在更高的级别上被阻止(例如负载均衡器、路由器、缓存代理,任何适合你的体系结构的东西)。

        3
  •  2
  •   Christopher Bottoms zerkms    16 年前

    Throttling your web server 对于使用Perl的解决方案。Randal Schwartz说他在Slashdot的攻击中幸免于难。

        4
  •  0
  •   Steve g    16 年前

    我不认为机器人会做任何事,除了允许或不允许。大多数搜索引擎都允许你自定义他们如何为你的网站编制索引。

    例如: Bing Google

    如果您有一个导致问题的特定代理,您可以具体地阻止它,或者查看是否可以配置它。