代码之家 › 专栏 › 技术社区 › clacke

python+expat:实体出错

expat-parser elementtree parsing xml python

clacke · 技术社区 · 15 年前

我编写了一个小函数,它使用elementtree和xpath提取XML文件中某些元素的文本内容:

#!/usr/bin/env python2.5

import doctest
from xml.etree import ElementTree
from StringIO import StringIO

def parse_xml_etree(sin, xpath):
  """
Takes as input a stream containing XML and an XPath expression.
Applies the XPath expression to the XML and returns a generator
yielding the text contents of each element returned.

>>> parse_xml_etree(
...   StringIO('<test><elem1>one</elem1><elem2>two</elem2></test>'),
...   '//elem1').next()
'one'
>>> parse_xml_etree(
...   StringIO('<test><elem1>one</elem1><elem2>two</elem2></test>'),
...   '//elem2').next()
'two'
>>> parse_xml_etree(
...   StringIO('<test><null>&#0;</null><elem3>three</elem3></test>'),
...   '//elem2').next()
'three'
"""

  tree = ElementTree.parse(sin)
  for element in tree.findall(xpath):
    yield element.text  

if __name__ == '__main__':
  doctest.testmod(verbose=True)

第三次测试失败,但出现以下异常:

expatError:对无效字符号的引用:第1行第13列

是  实体非法XML?不管它是不是,我想要解析的文件都包含它,我需要某种方法来解析它们。除了expat,还有其他解析器的建议,或者expat的设置,可以让我这样做吗?

更新:我发现 BeautifulSoup 刚才,在回答注释中有一个如下所述的标签汤解析器,为了好玩,我回到这个问题,尝试将它用作elementtree前面的XML清理器,但它尽职地转换了 &α0; 变成一个同样无效的空字节。-)

cleaned_s = StringIO(
  BeautifulStoneSoup('<test><null>&#0;</null><elem3>three</elem3></test>',
                     convertEntities=BeautifulStoneSoup.XML_ENTITIES
  ).renderContents()
)
tree = ElementTree.parse(cleaned_s)

…产量

xml.parsers.expat.ExpatError: not well-formed (invalid token): line 1, column 12

不过,在我的特殊情况下,我并不需要这样的xpath解析,我可以使用漂亮的soup本身及其非常简单的节点寻址风格。 parsed_tree.test.elem1.contents[0] .

2 回复 | 直到 15 年前

McDowell rahul gupta 15 年前

 不在 legal character range 由XML规范定义的。哎呀,我的Python技术还很初级,所以我在这方面没什么帮助。

Ned Batchelder 15 年前

 不是有效的XML字符。理想情况下,您可以让文件的创建者更改其进程,这样文件就不会像这样无效。

如果你必须接受这些文件,你可以预先处理它们 &#0 到别的地方去。例如,选择@作为转义符,将“@”转换为“@@”,然后 &α0; “入”“0”。

然后,当您从解析器获取文本数据时,您可以反转映射。这只是一个例子,你可以发明任何你喜欢的转义语法。

推荐文章

J_Cus504 · 在单匹配语句中使用身份变换和多谓词来沉默节点

6 月前

Rico Strydom · Linq to XML:如何基于文件中的其他元素获取元素

6 月前

surge3333 · 使用PowerShell构建XML

6 月前

Rashid Bilal · 主题更改时Android应用程序区域设置更改回英语

6 月前

Sandeep · XSLT代码,用于根据条件提取元素值

7 月前

Reto · XSLT 3.0突发流-如何存储/获取另一个分支的值

7 月前

ams_132 · 为什么这个youtube XML数据中的这些字段没有使用Rust中的quick XML正确反序列化

7 月前

SeveredTRUTH · 无法使用PowerShell从XML文件中的“Set”元素检索信息

7 月前

Maksym Kuzmych Yong Shun · 如何向XML属性添加命名空间前缀

8 月前

Ian Kemp · 如何从SelectXml调用本机XPath函数?

8 月前