代码之家 › 专栏 › 技术社区 › Yin Zhu

如何获取Python中HTML页面的内容

parsing html python

Yin Zhu · 技术社区 · 16 年前

我已将网页下载到HTML文件中。我想知道获取那个页面内容的最简单方法是什么。就内容而言,我的意思是我需要浏览器将显示的字符串。

清楚:

输入:

<html><head><title>Page title</title></head>
       <body><p id="firstpara" align="center">This is paragraph <b>one</b>.
       <p id="secondpara" align="blah">This is paragraph <b>two</b>.
       </html>

输出:

Page title This is paragraph one. This is paragraph two.

组合起来:

from BeautifulSoup import BeautifulSoup
import re

def removeHtmlTags(page):
    p = re.compile(r'''<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>''')
    return p.sub('', page)

def removeHtmlTags2(page):
    soup = BeautifulSoup(page)
    return ''.join(soup.findAll(text=True))

相关的

Python HTML removal
Extracting text from HTML file using Python
What is a light python library that can eliminate HTML tags? (and only text)
Remove HTML tags in AppEngine Python Env (equivalent to Rubyâs Sanitize)
RegEx match open tags except XHTML self-contained tags (著名) 不使用regex分析HTML 咆哮)

6 回复 | 直到 12 年前

Oddthinking 16 年前

用解析HTML Beautiful Soup .

要获取所有没有标签的文本,请尝试:

''.join(soup.findAll(text=True))

the Tin Man 13 年前

就我个人而言,我使用LXML是因为它是一把瑞士军刀…

from lxml import html

print html.parse('http://someurl.at.domain').xpath('//body')[0].text_content()

这会告诉lxml检索页面,找到 <body> 标记,然后提取并打印所有文本。

我做了很多页面解析,而且大多数时候regex都是错误的解决方案,除非它只是一次性的需要。如果页面的作者更改了他们的HTML,那么很有可能会破坏regex。解析器更有可能继续工作。

解析器的一个大问题是学习如何访问您所追求的文档的各个部分,但是您可以在浏览器中使用许多XPath工具来简化任务。

Bill the Lizard 13 年前

你想看看 Extracting data from HTML documents - Dive into Python 因为 HERE 它(几乎)正是你想要的。

Christian Hausknecht 16 年前

此任务的最佳模块是lxml或html5lib;Beautifull SOAP不值得再使用。对于递归模型,正则表达式显然是错误的方法。

-2

Ankit 16 年前

如果我能正确回答你的问题,这可以简单地通过使用urllib的urlopen函数来完成。只需看看这个函数就可以打开一个URL并读取这个页面的HTML代码的响应。

-3

Alexander Gessler 16 年前

获取浏览器显示内容的可用示例的最快方法是从HTML中删除所有标记并打印其余的标记。例如,可以使用python的 re .

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

1 年前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

1 年前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

1 年前

user29715306 · from_users=和chats=电视节目中的差异

1 年前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

1 年前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

1 年前

prayner · 更新嵌套字典包含列表中的项

1 年前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

1 年前

Dave · 如何在for循环中修改列表值

1 年前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

1 年前