代码之家  ›  专栏  ›  技术社区  ›  shawnr

为什么谷歌(或谷歌机器人)会索引一个返回500错误的页面?

  •  7
  • shawnr  · 技术社区  · 16 年前

    Googlebot偶尔会用一个错误的查询字符串参数为我们的一个站点编制索引。我不确定它是如何得到这个查询字符串参数的(似乎没有任何网站链接到我们的坏链接,我们的网站中没有插入坏值)。坏参数会导致站点抛出500错误,正如我们预期的那样。

    我的印象是,谷歌不会为返回500错误的页面编制索引,但事实证明确实如此。现在我有两个问题:

    1) 为什么Googlebot会插入随机的错误查询字符串值?(我真的不在乎这个问题的答案,但如果我们能做些什么来避免这个问题,它就会解决我们的问题。)

    2) 为什么谷歌会索引一个返回500个错误的页面?

    http://www.pbs.org/teacherline/catalog/browse/?sa=4&gb=baqhuxts&gb=20&gb=21&num=20&page=2&js=0&sa=1

    坏参数是gb=baqhuxts。参数“gb”应为整数。如果从查询字符串中删除该参数,您应该会看到一个很好的目录页面。

    关于nofollow和robots.txt解决方案:[修订]

    我现在意识到我是个白痴,于是放了一个元标签,告诉搜索机器人为页面编制索引。那是一件愚蠢的事。我要把它们拿走。W-(

    如果你 search on Google for 'baqhuxts' 你会发现它已经用这个坏参数索引了10个页面。但每个页面都返回500个错误。有人知道谷歌为什么认为这些页面是可以索引的有效页面吗?

    2 回复  |  直到 16 年前
        1
  •  4
  •   Dan Diplo    16 年前

    这可能是因为你告诉谷歌在你的meta标签中添加以下内容来索引它:

    <meta name="robots" content="index,follow">
    

    试着把它去掉!:)

        2
  •  1
  •   mkoryak    16 年前

    谷歌会抓取这样奇怪的页面,因为使用谷歌工具栏的人会进入不存在的页面,他们的浏览信息会传输到谷歌。这就是为什么您经常会发现被索引的页面没有被索引的业务,例如,没有从任何地方链接到的phpmyadmin页面。