代码之家  ›  专栏  ›  技术社区  ›  Maximus

如何正确拆分网站?

  •  0
  • Maximus  · 技术社区  · 12 年前

    假设我有一个 网站的验证:

     http://www.mywebsite.com
    

    我想保留 更老的 站点在子目录中,并将其单独处理:

     http://www.mywebsite.com/old/
    

    我的 网站有一个链接到 古老的 一个在主页上,但不是相反。

    1) 我应该创建2个站点地图吗?一个用于 和一个 古老的 ?

    2) 当我的网站被爬网时,我如何限制爬网程序的路径?换句话说,由于 网站有一个链接到 古老的 第一,履带将到达 古老的 地点如果我在robots.txt中执行以下操作:

     User-agent: *
     Disallow: /old/
    

    我担心它爬不动 古老的 网站(使用第二个网站地图),因为它被阻止了。这是正确的吗?

    1 回复  |  直到 12 年前
        1
  •  1
  •   unor Daniel Garijo    12 年前

    1) 您可以将所有URL包含在一个文件中,也可以创建单独的文件。人们可以将网站地图理解为“每个(网站)”,例如参见 http://www.sitemaps.org/ :

    在最简单的形式中,Sitemap是一个列出URL的XML文件 对于站点 以及关于每个URL的附加元数据

    由于您现在有两个站点,您可以创建两个站点地图。但是,我认为这并不是严格的定义。

    2) 好吧,如果你屏蔽了robots.txt中的URL,那么符合条件的机器人就不会访问这些URL。这并不意味着这些 网址 永远不会被搜索引擎索引,但页面(=内容)不会。