代码之家  ›  专栏  ›  技术社区  ›  Ionuț G. Stan

谷歌看到了一些它不应该看到的东西。为什么?

  •  7
  • Ionuț G. Stan  · 技术社区  · 16 年前

    出于某种神秘的原因,谷歌已经为这两个地址建立了索引,这两个地址指向同一个页面:

    /something/some-text-1055.html(某物/some-text-1055.html)

    索引?pg=something&id=1055

    (简短的通知-该网站自推出以来就有友好的网址,我不知道谷歌是如何找到“index.php”的?url-只有内容管理系统中有“不友好”的url,这是受密码限制的)

    我能做些什么来解决这个问题?(我有大约1000页是双重索引的。)有人告诉我使用“disallow:index.php?”在robots.txt文件中。 是对还是错?还有什么建议吗?

    6 回复  |  直到 16 年前
        1
  •  10
  •   Alana Storm    16 年前

    你会惊讶于Google僵尸在索引网站内容方面的普及性和快速性。这一点,再加上许多CMS系统创建了意料之外的页面/链接,使得这些链接在某个时候被暴露出来成为最可能的罪魁祸首。还有可能你的管理区域没有你想象的那么安全,谷歌机器人就是这样通过的。

    行为良好的人,以及 google recommended ,这里要做的是

    1. 如果可能,创建301重定向,从查询字符串样式的URL重定向到规范样式的URL。你是说“嘿,网络机器人/浏览器,以前在这个网址上的内容现在在另一个网址上”

    2. 阻止robots.txt中的查询字符串内容。这就像 询问 蜘蛛或其他 自动化程序 “嘿,请不要看这些东西。这些不是您要查找的URL“

    3. 谷歌显然 allows you to specify 现在,通过页面顶部的<link/>标记生成规范的URL。考虑加入这些。

    至于做行为良好的事情是否是“正确”的事情,请回复:谷歌排名…谁知道呢。只有“google”知道他们的算法现在是如何工作的,将来也会如何工作。我指的是google,一群在搜索应该如何工作上有着相互冲突目标的工程师和管理人员。

        2
  •  7
  •   sjstrutt    16 年前

    Google现在提供了一种指定页面规范URL的方法。您可以在HTML中使用以下代码告诉Google您的规范URL:

    <link rel="canonical" href="http://www.example.com/product.php?item=swedish-fish" />
    

    您可以在Google的博客文章中了解有关规范URL的更多信息,如下所示: http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html 根据博客帖子,ask.com,微软Live Search和雅虎!都支持规范标签。

        3
  •  3
  •   Jeremy L    16 年前

    如果你使用 sitemap generators to submit to search engines 你也要拒绝他们。它们很可能是谷歌从哪里得到你的链接,从爬行你的文件夹和检查你的日志。

        4
  •  3
  •   Gumbo    16 年前

    最好检查请求的URI( $_SERVER['REQUEST_URI'] )如果是的话重定向 /index.php .

        5
  •  1
  •   stpe    16 年前

    更改robots.txt没有帮助,因为该页已被索引。

    最好是使用永久重定向(301)。

    如果你想删除一个网页一旦被谷歌索引,唯一的方法,或多或少,是让它返回404未找到的消息。

        6
  •  1
  •   MK_Dev    16 年前

    你是否有可能将一个表单发布到一个类似的URL,而谷歌只是从源代码中获取它?

    推荐文章