|
|
1
12
|
|
|
2
7
就我个人而言,我使用LXML是因为它是一把瑞士军刀… from lxml import html
print html.parse('http://someurl.at.domain').xpath('//body')[0].text_content()
这会告诉lxml检索页面,找到
我做了很多页面解析,而且大多数时候regex都是错误的解决方案,除非它只是一次性的需要。如果页面的作者更改了他们的HTML,那么很有可能会破坏regex。解析器更有可能继续工作。 解析器的一个大问题是学习如何访问您所追求的文档的各个部分,但是您可以在浏览器中使用许多XPath工具来简化任务。 |
|
|
3
2
你想看看 Extracting data from HTML documents - Dive into Python 因为 HERE 它(几乎)正是你想要的。 |
|
|
4
1
此任务的最佳模块是lxml或html5lib;Beautifull SOAP不值得再使用。对于递归模型,正则表达式显然是错误的方法。 |
|
|
5
-2
如果我能正确回答你的问题,这可以简单地通过使用urllib的urlopen函数来完成。只需看看这个函数就可以打开一个URL并读取这个页面的HTML代码的响应。 |
|
|
6
-3
获取浏览器显示内容的可用示例的最快方法是从HTML中删除所有标记并打印其余的标记。例如,可以使用python的
|