|
|
1
16
如果你指的是Google,你可以通过使用你的Google网站管理员帐户来控制Google蜘蛛在你网站上的速度。( Google Webmaster Tools ) 还有这个,你可以放在robots.txt中。
其中,爬行延迟被指定为每个页面爬行之间的秒数。当然,就像robots.txt中的其他东西一样,爬虫必须尊重它,所以ymmv。 |
|
|
2
5
除了为GoogleBot使用Google网站管理员工具(请参见
罗伯特·哈维
答案是,
Yahoo!
和
Bing
支持非标准
http://en.wikipedia.org/wiki/Robots.txt#Nonstandard_extensions 然而,当推到推的时候,一个行为不端的机器人攻击你的站点,只需要在更高的级别上被阻止(例如负载均衡器、路由器、缓存代理,任何适合你的体系结构的东西)。 |
|
|
3
2
见 Throttling your web server 对于使用Perl的解决方案。Randal Schwartz说他在Slashdot的攻击中幸免于难。 |
|
Sweepy Dodo · JSON lite的格式化 1 年前 |
|
|
giantjenga · 优化整数向量到二进制向量的转换 1 年前 |
|
Zegarek · Postgresql递归查询未提供预期结果 1 年前 |
|
|
Joe · 为什么这两个查询之间的性能存在如此大的差异? 1 年前 |
|
tic-toc-choc · 在`dplyr中高效使用列表进行过滤` 1 年前 |