代码之家 › 专栏 › 技术社区 › Mirac7

ElementTree失败,字符串中有不安全的字符

elementtree python-3.x xml

Mirac7 · 技术社区 · 8 年前

我正在尝试解析包含如下正则表达式的xml:

<conditions>
  <condition pattern_matches="regex string"/>
</conditions>

但是,当regex包含不安全字符时,例如 (<=a).*b$ ,ElementTree引发ParseError,指出xml在 < 字符,即使该字符在引号内。

我可以用 < 而不是 < 然后一旦解析就会替换所有这些字符,但这使得复杂的正则表达式很难读取,并且需要重写包含这些字符组合的正则表达式,以避免产生误报,然后加载原始xml文件,然后将字符替换为其安全变体,只是在之后立即将其交换回来,似乎不必要地占用大量cpu。

我应该如何处理这个问题?这对ElementTree来说太复杂了吗?还是我做错了什么?

1 回复 | 直到 8 年前

Community CDub 7 年前

XML规范要求 < 必须逃到 < 。每个健全的XML处理器都必须遵循规范。参见相关讨论: Invalid Characters in XML .

也就是说,如果您使用如下XML处理器创建XML ElementTree ,它会为您处理转义和取消转义过程。例如,给定的普通正则表达式字符串包含 < , 元素树 自动将其替换为 &书信电报; :

>>> from xml.etree import ElementTree as et
>>> root = et.Element("conditions")
>>> regex_str = "(<=a).*b$"
>>> sub = et.SubElement(root, "condition", attrib = {"pattern_matches": regex_str})
>>> et.tostring(root)
'<conditions><condition pattern_matches="(&lt;=a).*b$" /></conditions>'

…它会自动将其替换回 < 在读取属性值时:

>>> sub.attrib["pattern_matches"]
'(<=a).*b$'

推荐文章

M-M · 如何逐个读取所有xml文件并逐个处理

7 年前

chrlo · 循环浏览xml文件列表?

7 年前

Stevoisiak · 正在转换xml。etree。ElementTree to string引发“TypeError:类型为“int”的参数不可iterable”

7 年前

RustyShackleford · 如何附加递归API调用并将结果写入CSV?

7 年前

glexey · pypy:elementtree标记名只保留第一个字母?

7 年前

Xeberdee · 元素树分析

7 年前

Mirac7 · ElementTree失败,字符串中有不安全的字符

8 年前

erocoar · Python从网站中提取某些链接

9 年前

Ivan · 如何使用XPath通过其同级节点的属性识别XML节点?

9 年前

Rohit · 使用Python分析Xml以查找特定节点值

9 年前