代码之家 › 专栏 › 技术社区 › Pablo Fernandez

有已知网络爬虫的列表吗?[关闭]

bots web-crawler documentation list

Pablo Fernandez · 技术社区 · 15 年前

我正在尝试为Web服务器上的某些文件获取准确的下载编号。我看了一下用户代理,其中一些显然是僵尸或网络爬虫,但对许多人来说,我不确定,他们可能是或可能不是网络爬虫,他们导致了许多下载,所以我知道这一点很重要。

是否有一个已知网络爬虫列表,其中包含一些文档,如用户代理、IP、行为等?

我对官方网站不感兴趣,比如谷歌、雅虎或微软。这些网站通常表现得很好,并有自己的身份。

4 回复 | 直到 10 年前

Pablo Fernandez 15 年前

我在用 http://www.user-agents.org/ 通常作为参考,希望这对你有所帮助。

Martin Monperrus Bernuly 10 年前

我正在维护爬虫的用户代理模式列表 https://github.com/monperrus/crawler-user-agents/ .

它是协作的,你可以通过拉请求为它做出贡献。

jwanagel 15 年前

不幸的是,我们发现机器人程序的活动太多,种类繁多,无法准确地过滤。如果您想要准确的下载计数,最好的选择是需要javascript来触发下载。这基本上是唯一能可靠过滤掉僵尸的方法。这也是为什么现在所有的站点流量分析引擎都是基于javascript的。

Pablo Fernandez 15 年前

http://www.robotstxt.org/db.html 是一个很好的开始的地方。如果你也需要的话,他们有一个自动的生料。 http://www.botsvsbrowsers.com/ 也很有帮助。

推荐文章

rileyhopkins · channel.createWebhook导致“没有这样的文件或目录”错误

10 月前

Nathan Liwang · 我无法让discord机器人检测到删除该频道的人

1 年前

Omar Mustafa · Discord Bot在线,但不会在我的Discord频道上回复

1 年前

thatwillbeallfolks · “discord.ext.commands.cog”没有属性“listener”

1 年前

Sando Philip · Gramjs多次登录

1 年前

skee · 创建下拉菜单时出现不和谐.py关键字错误

1 年前

Paulawaneee · Pycharm错误与这个python机器人如何解决它们?

1 年前

Guilherme Doherty Marques · Javascript机器人检查签证预约不起作用,我不知道如何解决

1 年前

bsrp23 · Bot发布嵌入7次

1 年前

bsrp23 · 嵌入式应用程序中的机器人打印问题

1 年前