|
|
1
411
在python 2中,使用标准库附带的urllib2。
这是使用库的最基本方法,不包括任何错误处理。您还可以执行更复杂的操作,如更改标题。可以找到文档 here. |
|
|
2
991
再来一个,用
(对于python 3+使用“import urllib.request”和urllib.request.urlretrieve) 还有一个,有一个“进度条”
|
|
|
3
316
2012年,使用 python requests library
你可以跑
请求比其他方法有很多优势,因为API要简单得多。如果必须进行身份验证,这尤其正确。在这种情况下,urllib和urllib2都是非常不明确和痛苦的。 2015-1230
人们对进度条表示赞赏。当然,很酷。现在有几种现成的解决方案,包括
这基本上是30个月前描述的@kvance的实现。 |
|
|
4
152
这个
|
|
|
5
85
Python 3
Python 2
|
|
|
6
20
使用wget模块:
|
|
|
7
20
python 2/3的pablog代码的改进版本:
|
|
|
8
16
写的
wget
纯Python中的库就是为了这个目的。它被泵起来了。
|
|
|
9
14
简单却
|
|
|
10
12
我同意科里的观点,乌里利布2比 urllib 如果你想做更复杂的事情,很可能会用到这个模块,但是为了使答案更完整,如果你只需要基本的知识,urllib是一个更简单的模块:
会很好的。或者,如果不想处理“响应”对象,可以调用 读() 直接:
|
|
|
11
12
以下是在python中下载文件最常用的调用:
注:
|
|
|
12
7
您还可以通过urlretrieve获得进度反馈:
|
|
|
13
6
如果安装了wget,则可以使用并行同步。 pip安装并行同步
Doc: https://pythonhosted.org/parallel_sync/pages/examples.html 这是相当强大的。它可以并行下载文件,失败时重试,甚至可以在远程机器上下载文件。 |
|
|
14
6
|
|
|
15
5
在python3中,你可以使用urllib3和shutil库。 使用pip或pip3下载它们(取决于python3是否为默认值)
然后运行此代码
请注意,您下载了
|
|
16
4
如果速度对你很重要,我为模块做了一个小的性能测试
首先,这些是结果(它们在不同的运行中相似):
我执行测试的方式是使用“profile”修饰器。这是完整代码:
|
|
|
17
3
源代码可以是:
|
|
|
18
3
为了完整起见,还可以使用
在Jupyter笔记本中,您还可以使用
|
|
|
19
3
你可以使用 PycURL 在python 2和3上。
|
|
|
20
2
我写了以下内容,它在普通的python 2或python 3中工作。
笔记:
|
|
|
21
1
urlretrieve和requests.get很简单,但实际情况并非如此。 我已经为几个站点提取了数据,包括文本和图像,上面的两个可能解决了大部分任务。但为了更普遍的解决方案,我建议使用厄洛彭。因为它包含在python 3标准库中,所以您的代码可以在任何运行python 3的机器上运行,而无需预先安装站点par。
这个答案提供了一个解决方案,当使用python通过http下载文件时,禁止使用HTTP403。我只尝试过请求和URLLIB模块,其他模块可能提供更好的功能,但这是我用来解决大多数问题的模块。 |
|
|
22
1
这可能有点晚了,但我看到了pablog的代码,忍不住添加了一个os.system(“cls”)来让它看起来棒极了!过来看:
如果在Windows以外的环境中运行,则必须使用“cls”以外的内容。在Mac OS X和Linux中,应该是“清晰的”。 |
|
|
Nathan123 · 用于刮取结果的脚本似乎不起作用? 8 年前 |
|
|
Hojat Taheri · 在python 3中从页面提取链接 8 年前 |
|
|
Roman · urllib:html到csv错误 8 年前 |
|
|
Richard Smith · 从文本文件复制数据并将其插入URL 8 年前 |
|
|
Jorge Galán · 使用BeautifulSoup分析错误 8 年前 |