代码之家 › 专栏 › 技术社区 › Andrew Harry

良好网络爬虫“礼仪”指南

web-crawler

Andrew Harry · 技术社区 · 17 年前

我正在建立一个搜索引擎(为了好玩),我突然意识到,我的小项目可能会因为点击广告和各种各样的问题而带来灾难。

想到的事情:

阻止爬虫点击广告

2 回复 | 直到 17 年前

Samuel Carrijo 17 年前

您不能只读取robots.txt指令。您还应该看到 meta tags with noindex and nofollow .

关于广告问题,我不确定,但我猜如果你只是阅读链接,然后在其他时间进入该页面,输入的页面将没有关于你如何获得该地址的信息,并且不能为“伪点击”向网站收费

MichaÅ Chaniewski 17 年前

另外,你也不必担心广告。如果你只抓取页面的HTML文本,那么在大多数情况下你不会在那里得到广告链接——它们是在客户端使用javascript生成的。

推荐文章

Dinosaur · 使用BeautifulSoup点击div标签后抓取html页面

1 年前

Kentaro T. Vadney · Atlassian页面上Kendra Index WebCrawlers的限制设置

2 年前

Claudio · 如何使用Selenium下载PDF文件?

2 年前

R3FL3CT · 如何在Python中将一组网站及其链接转换为有向图?

2 年前

hidde · 页面上的不同内容Apify网络爬行

6 年前

chans.best · StormCrawler和Hortonworks 1.1.0.2.6.4.0-91之间的Commons日志版本冲突

8 年前

Tae · Python3中方法has\u key的替换

8 年前

Jonas Pohlmann · Stormcrawler没有为elasticsearch获取/索引页面

8 年前

Teslaturing · 在python中从结果中获取指定单词后的动态数字并存储在数据库中

8 年前

Vega · 如何从DOM获取所有链接?

8 年前