代码之家 › 专栏 › 技术社区 › Peter

可以防止搜索引擎蜘蛛无限抓取搜索结果上的页面链接吗?

nofollow robots.txt web-crawler seo

4

Peter · 技术社区 · 17 年前

我们的SEO团队希望向蜘蛛开放我们的主要动态搜索结果页面,并从元标签中删除“nofollow”。目前,蜘蛛可以通过在robots.txt中允许路径来访问它,但元标签中有一个“nofollow”子句,可以防止蜘蛛超越第一页。

<meta name="robots" content="index,nofollow">

我担心,如果我们删除“nofollow”,对我们的搜索系统的影响将是灾难性的,因为蜘蛛将开始在结果集中的所有页面中爬行。我希望得到以下建议:

1) 有没有一种方法可以从元标签中删除“nofollow”,但防止蜘蛛只跟踪页面上的某些链接?我读过关于rel=“nofollow”的混合意见,这是一个可行的选择吗?

<a rel="nofollow" href="http://www.mysite.com/paginglink" >Next Page</a>

2) 有没有一种方法可以控制蜘蛛会走多远的“深度”?如果他们读了几页,然后停下来,情况就不会那么糟糕了。

3) 我们的搜索结果页面有标准的下一个/上一个链接,理论上这会导致蜘蛛递归地无限次点击页面,这对SEO有什么影响?

我知道不同的蜘蛛行为不同,但主要关注的是谷歌、雅虎、MSN等大公司。

笔记我们的搜索结果页面和分页链接不是机器人友好的,因为它们没有重写,并且有?name=value查询字符串,但据我所知,蜘蛛在看到“?”时不再只是中止?随着搜索结果页面的排名越来越高。

3 回复 | 直到 16 年前

1

2

Nick Berardi 17 年前

说实话,你正在看 链接属性 错了。搜索蜘蛛很可能已经在搜索nofollow页面了,尤其是谷歌、雅虎和MSN,因为它们仍然需要点击这些页面来查看是否有noindex。

真正的问题是 链接属性 实际上并不意味着 不要跟着 ,这只是意味着 不要把我的名声传给这个链接 。因此,除非你积极阻止机器人,这听起来不像你,否则更改链接上的ROBOTS元标签和机器人命令不会影响性能,因为它们已经攻击了你的网站。要确认这一点,只需查看您的HTTP服务器日志。

所以我的投票是,取消机器人限制不会有任何问题。

2

Will Bickford 17 年前

我见过谷歌索引一个日历系统,该系统在每个页面上都有相对链接,直到时间结束(2038年1月19日),请参阅: http://en.wikipedia.org/wiki/Year_2038_problem ).直到2038年处理日期的源代码中暴露出一个错误,我们才注意到服务器上的负载。

我不知道其他搜索引擎的情况,但谷歌提供了许多有用的工具来控制谷歌机器人对服务器基础设施的影响程度。看见 http://www.google.com/webmasters/ .

网站管理员工具中有一个选项可以为您的网站设置爬网率。

3

1

Marc Novakowski 17 年前

谷歌机器人非常聪明,不会遍历整个动态生成页面的数据库,只要URL给出一些动态的提示(即文件扩展名为.asp或.jsp等,数字id作为查询参数)。如果你使用重写规则来使你的网址“友好”,那么机器人就很难确定他们正在阅读的是静态页面还是动态生成的页面。看见 this Google article 有关动态URL与静态URL的更多信息。

您可能还想考虑创建一个 Google Sitemap 让机器人更好地了解你网站上哪些页面可以被索引,哪些页面不能被索引。