代码之家  ›  专栏  ›  技术社区  ›  Pablo Fernandez

有已知网络爬虫的列表吗?[关闭]

  •  14
  • Pablo Fernandez  · 技术社区  · 15 年前

    我正在尝试为Web服务器上的某些文件获取准确的下载编号。我看了一下用户代理,其中一些显然是僵尸或网络爬虫,但对许多人来说,我不确定,他们可能是或可能不是网络爬虫,他们导致了许多下载,所以我知道这一点很重要。

    是否有一个已知网络爬虫列表,其中包含一些文档,如用户代理、IP、行为等?

    我对官方网站不感兴趣,比如谷歌、雅虎或微软。这些网站通常表现得很好,并有自己的身份。

    4 回复  |  直到 10 年前
        1
  •  11
  •   Pablo Fernandez    15 年前

    我在用 http://www.user-agents.org/ 通常作为参考,希望这对你有所帮助。

    你也可以试试 http://www.robotstxt.org/db.html http://www.botsvsbrowsers.com .

        2
  •  5
  •   Martin Monperrus Bernuly    10 年前

    我正在维护爬虫的用户代理模式列表 https://github.com/monperrus/crawler-user-agents/ .

    它是协作的,你可以通过拉请求为它做出贡献。

        3
  •  4
  •   jwanagel    15 年前

    不幸的是,我们发现机器人程序的活动太多,种类繁多,无法准确地过滤。如果您想要准确的下载计数,最好的选择是需要javascript来触发下载。这基本上是唯一能可靠过滤掉僵尸的方法。这也是为什么现在所有的站点流量分析引擎都是基于javascript的。

        4
  •  4
  •   Pablo Fernandez    15 年前

    http://www.robotstxt.org/db.html 是一个很好的开始的地方。如果你也需要的话,他们有一个自动的生料。 http://www.botsvsbrowsers.com/ 也很有帮助。