代码之家 › 专栏 › 技术社区 › Jaime Montoya

从google分析中消除bot流量

google-analytics-filters bots google-analytics

Jaime Montoya · 技术社区 · 6 年前

在我的谷歌分析报告中,我看到流量,我几乎可以肯定它来自机器人:

了解服务提供商的情况 amazon technologies inc. (来自弗吉尼亚州的阿什本,显然是亚马逊的aws机器人)和 microsoft corporation (来自堪萨斯州科菲维尔)。

我想排除所有机器人的流量,包括谷歌,亚马逊,微软和任何其他公司。我只想看到访问我网站的真实用户的流量,而不是网络机器人的流量谢谢您。

3 回复 | 直到 6 年前

Dave Meindl 6 年前

在谷歌分析视图设置中,你会看到一个“机器人过滤”选项。选中复选框“排除已知机器人和蜘蛛的所有点击”如果Google Analytics将来自Ashburn和Coffeyville的点击识别为机器人,那么这些机器人的数据将不会记录在您的视图中。

Bot Filtering

如果Google Analytics不将它们识别为bots,那么您可以调查在视图中添加一个将从ISP组织中排除流量的过滤器的影响。

View Filter for ISP Organization

Ruben Lozano 6 年前

这些机器人大多来自其他工具上周五,我们收到了许多来自Coffeyville和微软公司作为服务提供商的会议这是因为我们使用了一个工具来扫描我们的网站上的饼干。所以,这就是原因我最好的选择是排除这个城市的任何数据。 Screenshot from Google Analytics about how I implemented the filter in that view

JGlass 6 年前

您可以使用robots.txt尝试排除机器人: Robots exclusion standard

一些摘录并不是说这种联系可能会失败。

机器人排除标准(robots exclusion standard)也称为robots exclusion protocol或简称robots.txt,是网站用来与网络爬虫和其他网络机器人通信的标准该标准规定了如何告知网络机器人网站的哪些区域不应被处理或扫描。搜索引擎经常使用机器人对网站进行分类并不是所有的机器人都能配合这个标准;电子邮件收割机、垃圾邮件、恶意软件和扫描安全漏洞的机器人甚至可以从网站上被告知要远离的部分开始该标准不同于网站地图,但可以与网站机器人包含标准结合使用。

关于标准
当站点所有者希望向web robots发出指令时,他们会将名为robots.txt的文本文件放在web站点层次结构的根目录中(例如。 https://www.example.com/robots.txt )此文本文件包含特定格式的说明(请参阅下面的示例)。选择按照说明操作的机器人在从网站获取任何其他文件之前,尝试获取此文件并读取说明。如果该文件不存在,Web机器人假设Web所有者希望不提供特定的指令,并爬行整个站点。

网站上的robots.txt文件将作为一个请求,要求指定的robots在对网站进行爬网时忽略指定的文件或目录。例如,这可能是出于对搜索引擎结果隐私的偏好,或者是出于对所选目录的内容可能具有误导性或与网站整体分类无关的信念,或者是出于应用程序仅对某些数据进行操作的愿望如果从已爬网的页面链接到robots.txt中列出的页面,则指向这些页面的链接仍会显示在搜索结果中。

一些简单的例子
此示例告诉所有robots,它们可以访问所有文件,因为通配符*代表所有robots,disallow指令没有值,这意味着不允许任何页面。

用户代理:* 不允许: 如果robots.txt文件为空或丢失,也可以得到相同的结果。

这个例子告诉所有机器人远离网站:

用户代理:* 不允许:/ 此示例告诉所有机器人不要输入三个目录:

用户代理:* 不允许/cgi-bin/ 不允许/tmp/ 不允许:/垃圾邮件/ 此示例告诉所有机器人远离一个特定文件:

用户代理:* 不允许:/目录/file.html 请注意,将处理指定目录中的所有其他文件。