代码之家 › 专栏 › 技术社区 › Mohamed Thasin ah

如何在beautiful soup中提取文本直到<br>标记

html-parsing beautifulsoup python

Mohamed Thasin ah · 技术社区 · 7 年前

我想从div提取到 <br> 标签。如何做到这一点,

<div class="content-cell mdl-cell mdl-cell--6-col mdl-typography--body-1">Watched a video that has been removed<br>Aug 17, 2018, 2:34:28 PM UTC</div>

我用过这个,

print  content.text

它输出,

Watched a video that has been removedAug 17, 2018, 2:34:28 PM UTC

但预期产出是, 观看了已删除的视频

之后我不想再发短信了 <br>

更何况要特别追查 < 我可以试试这个,

content.find('br').text

现在我想做下面的事

result= (content.find('br').text).replace((content.find('br').text),'')

有没有其他更好的方法来避免我使用beautifulsoup的额外字符串替换方法?

1 回复 | 直到 7 年前

Giorgos Myrianthous 7 年前

from bs4 import BeautifulSoup

html="""<div class="content-cell mdl-cell mdl-cell--6-col mdl-typography--body-1">Watched a video that has been removed<br>Aug 17, 2018, 2:34:28 PM UTC</div>"""
soup = BeautifulSoup(html)
print(soup.find("div").contents[0])

输出应为:

Watched a video that has been removed

推荐文章

user3127554 · Powershell HTML未格式化

8 年前

user1922364 · 从一个页面获取所有链接

8 年前

GonzaloXavier · 提取R中<option>标记的内容

8 年前

Deepa MG · 如何将参数发送到另一个PHP网站的AJAX POST方法并获取JSON信息

8 年前

Anurag Sharma · 从自由流动的文本中删除html标记以形成独立的句子

8 年前

Shafizadeh · 为什么查询与DOM不匹配?

9 年前

Yannis Dran · 提取存储在磁盘上的html文件的url和名称,并分别打印它们-Python

9 年前

Athapali · 如何使用jquery获取变量中元素的文本?

9 年前

Mona G · html中响应头的jmeter正则表达式提取器

10 年前

Paul · Jsoup-从元素中提取html

10 年前