代码之家 › 专栏 › 技术社区 › x-yuri

使用CDATA获取元素的文本

cdata lxml python

x-yuri · 技术社区 · 6 年前

我有一个元素:

>>> el = etree.XML('<tag><![CDATA[content]]></tag>')
>>> el.text
'content'

<![CDATA[content]]> . 我该怎么办?

0 回复 | 直到 6 年前

Daniel Haley 6 年前

当你这样做的时候 el.text ,这总是会给你一个纯文本 content .

若要查看序列化元素,请尝试 tostring()

el = etree.XML('<tag><![CDATA[content]]></tag>')
print(etree.tostring(el).decode())

这将打印:

<tag>content</tag>

XMLParser() 具有 strip_cdata=False :

parser = etree.XMLParser(strip_cdata=False)

el = etree.XML('<tag><![CDATA[content]]></tag>', parser=parser)
print(etree.tostring(el).decode())

<tag><![CDATA[content]]></tag>

这应该足以满足您的” 我想在测试中确保内容包装在CDATA中

Sebastien D 6 年前

你可以考虑用美组来寻找 CDATA 实例:

import bs4
from bs4 import BeautifulSoup

data='''<tag><![CDATA[content]]></tag>'''
soup = BeautifulSoup(data, 'html.parser')
"<![CDATA[{}]]>".format(soup.find(text=lambda x: isinstance(x, bs4.CData)))

<![CDATA[content]]>

推荐文章

Community wiki · 如何调试Python内存故障?

2 年前

fleaheap · 如何使用lxml和python遍历html文档及其子文档的<body>

7 年前

Nebulosar Nutcracker · python lxml-如何在XML中获取子元素的值

7 年前

Jack Hudgins · 解析网站获取NBA球队RPI的表格数据

7 年前

Greenev · 在Python中,如何将空字符串传递到三引号的f字符串中?

7 年前

Lorcan Kelleher · 使用lxml/requests从网页获取TLE(Python3.6.4)

7 年前

LeCoda · 使用lxml获取xml数据

7 年前

Florian · xpath内部为空

7 年前

SIM · 无法分析来自不同表的'th'标记和'td'标记的数据

7 年前

qtopierw · 如何在Python中使用lxml更改XML命名空间?

7 年前