![]() |
1
11
我在用 http://www.user-agents.org/ 通常作为参考,希望这对你有所帮助。 你也可以试试 http://www.robotstxt.org/db.html 或 http://www.botsvsbrowsers.com . |
![]() |
2
5
我正在维护爬虫的用户代理模式列表 https://github.com/monperrus/crawler-user-agents/ . 它是协作的,你可以通过拉请求为它做出贡献。 |
![]() |
3
4
不幸的是,我们发现机器人程序的活动太多,种类繁多,无法准确地过滤。如果您想要准确的下载计数,最好的选择是需要javascript来触发下载。这基本上是唯一能可靠过滤掉僵尸的方法。这也是为什么现在所有的站点流量分析引擎都是基于javascript的。 |
![]() |
4
4
http://www.robotstxt.org/db.html 是一个很好的开始的地方。如果你也需要的话,他们有一个自动的生料。 http://www.botsvsbrowsers.com/ 也很有帮助。 |