代码之家 › 专栏 › 技术社区 › carousallie

在xml中查找缺少结束标记的正则表达式

xml regex python

-1

carousallie · 技术社区 · 5 年前

我有一些xml,即将推出一个带有一些不匹配标记的nlp提取工具。然后我试图使用regex来查找不匹配的标记并纠正问题,但是我在regex部分遇到了麻烦。

我可以选择 <Name> 标签,但我只想选择那些没有结束标记,并使用“替换”添加匹配的结束标记。如何缩小范围并正确更换?

实际结果 xx 是 (<Name>.*)</Name> 但我需要它 <Name>Margrethe II</Name> .

查找: <Name>.*

替换: (<名称>*)<名称>

import re

mmt = """<Sovereigns>
    <Queens>
        <Queen>
            <Name>Elizabeth II</Name>
            <Country>Great Britain and Northern Ireland</Country>
        </Queen>
        <Queen>
            <Name>Margrethe II
            <Country>Denmark</Name></Country>
        </Queen>
    </Queens>
</Sovereigns>"""

# remove extra closing tag
x = re.sub("</Name><", "<", mmt)
# add closing tag to those missing
xx = re.sub("<Name>.*", "(<Name>.*)</Name>", mmt)

1 回复 | 直到 5 年前

Booboo 5 年前

你想要你的 xx 行为:

xx = re.sub("<Name>(?!.*</Name>)(.*)", r"<Name>\1</Name>", mmt)

<Name> 比赛 <名称>
(?!.*</Name>) 一个 消极展望 也就是说这行的其余部分不能包含 </Name>
(.*) 与捕获组1中的行的其余部分匹配。

替换包含对捕获组1的反向引用。

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

4 月前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

4 月前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

4 月前

user29715306 · from_users=和chats=电视节目中的差异

4 月前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

4 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

4 月前

prayner · 更新嵌套字典包含列表中的项

4 月前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

4 月前

Dave · 如何在for循环中修改列表值

5 月前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

5 月前