![]() |
1
12
|
![]() |
2
7
就我个人而言,我使用LXML是因为它是一把瑞士军刀… from lxml import html print html.parse('http://someurl.at.domain').xpath('//body')[0].text_content()
这会告诉lxml检索页面,找到
我做了很多页面解析,而且大多数时候regex都是错误的解决方案,除非它只是一次性的需要。如果页面的作者更改了他们的HTML,那么很有可能会破坏regex。解析器更有可能继续工作。 解析器的一个大问题是学习如何访问您所追求的文档的各个部分,但是您可以在浏览器中使用许多XPath工具来简化任务。 |
![]() |
3
2
你想看看 Extracting data from HTML documents - Dive into Python 因为 HERE 它(几乎)正是你想要的。 |
![]() |
4
1
此任务的最佳模块是lxml或html5lib;Beautifull SOAP不值得再使用。对于递归模型,正则表达式显然是错误的方法。 |
![]() |
5
-2
如果我能正确回答你的问题,这可以简单地通过使用urllib的urlopen函数来完成。只需看看这个函数就可以打开一个URL并读取这个页面的HTML代码的响应。 |
![]() |
6
-3
获取浏览器显示内容的可用示例的最快方法是从HTML中删除所有标记并打印其余的标记。例如,可以使用python的
|
![]() |
batman · 如何用特定模式grep特定行及其子网行? 2 年前 |
![]() |
Jensen Holm · 在非常大的字符串中查找链接时遇到问题 3 年前 |
![]() |
MBF · PHP导入/解析XML文件内容保存到数据库 3 年前 |
![]() |
user10717742 · 用java编写的自定义文件解析器需要改进 3 年前 |
![]() |
Muhsin Muhammed · 向文件中的行添加引号和逗号 3 年前 |
![]() |
Felkru · 添加字符串会在Javascript中返回空字符串 3 年前 |
![]() |
Mustard Tiger · 熊猫解析文本列 3 年前 |