代码之家  ›  专栏  ›  技术社区  ›  Andrew Harry

良好网络爬虫“礼仪”指南

  •  3
  • Andrew Harry  · 技术社区  · 17 年前

    我正在建立一个搜索引擎(为了好玩),我突然意识到,我的小项目可能会因为点击广告和各种各样的问题而带来灾难。

    想到的事情:

    1. 遵守Robot.txt说明
    2. 限制对同一域的同时请求数
    3. 不跟随广告链接?

    阻止爬虫点击广告

    2 回复  |  直到 17 年前
        1
  •  3
  •   Samuel Carrijo    17 年前

    您不能只读取robots.txt指令。您还应该看到 meta tags with noindex and nofollow .

    关于广告问题,我不确定,但我猜如果你只是阅读链接,然后在其他时间进入该页面,输入的页面将没有关于你如何获得该地址的信息,并且不能为“伪点击”向网站收费

        2
  •  2
  •   Michał Chaniewski    17 年前

    另外,你也不必担心广告。如果你只抓取页面的HTML文本,那么在大多数情况下你不会在那里得到广告链接——它们是在客户端使用javascript生成的。