|
|
1
3
您不能只读取robots.txt指令。您还应该看到 meta tags with noindex and nofollow . 关于广告问题,我不确定,但我猜如果你只是阅读链接,然后在其他时间进入该页面,输入的页面将没有关于你如何获得该地址的信息,并且不能为“伪点击”向网站收费 |
|
|
2
2
另外,你也不必担心广告。如果你只抓取页面的HTML文本,那么在大多数情况下你不会在那里得到广告链接——它们是在客户端使用javascript生成的。 |
|
|
Claudio · 如何使用Selenium下载PDF文件? 2 年前 |
|
|
hidde · 页面上的不同内容Apify网络爬行 6 年前 |
|
|
Tae · Python3中方法has\u key的替换 8 年前 |
|
Vega · 如何从DOM获取所有链接? 8 年前 |