代码之家 › 专栏 › 技术社区 › alvas

Unicode re.sub()不适用于\g<0>(组0)

regex-group unicode string regex python

alvas · 技术社区 · 11 年前

为什么 \g<0> 使用unicode正则表达式?

当我尝试使用 \g<0> 要使用普通字符串regex在组前后插入空格,它的工作原理是:

>>> punct = """,.:;!@#$%^&*(){}{}|\/?><"'"""
>>> rx = re.compile('[%s]' % re.escape(punct))
>>> text = '''"anstÃ¤ndig"'''
>>> rx.sub(r" \g<0> ",text)
' " anst\xc3\xa4ndig " '
>>> print rx.sub(r" \g<0> ",text)
 " anstÃ¤ndig "

但使用unicode regex时,不会添加空格:

>>> punct = u""",ââââââââââ!Â£"%$'&)(+*-â¬/.Â±Â°Â´Â·Â¸;:=<?>@Â§#Â¡â¢[Ë]Â»_^`â¤â¦\Â«Â¿Â¨{}|"""
>>> rx = re.compile("["+"".join(punct)+"]", re.UNICODE)
>>> text = """âanstÃ¤ndigâ"""
>>> rx.sub(ur" \g<0> ", text)
'\xe2\x80\x9eanst\xc3\xa4ndig\xe2\x80\x9c'
>>> print rx.sub(ur" \g<0> ", text)
âanstÃ¤ndigâ

我该怎么办 \g 使用unicode正则表达式?
如果(1)不可能,如何让unicode regex输入中字符前后的空格 punct ?

1 回复 | 直到 8 年前

moliware 11 年前

我认为你有两个错误。首先,你不能逃避 punct 就像第一个例子一样 re.escape 你有这样的角色 [] 需要逃离。第二, text 变量不是unicode。有效的示例:

>>> punct = re.escape(u""",ââââââââââ!Â£"%$'&)(+*-â¬/.Â±Â°Â´Â·Â¸;:=<?>@Â§#Â¡â¢[Ë]Â»_^`â¤â¦\Â«Â¿Â¨{}|""")
>>> rx = re.compile("["+"".join(punct)+"]", re.UNICODE)
>>> text = u"""âanstÃ¤ndigâ"""
>>> print rx.sub(ur" \g<0> ", text)
 â anstÃ¤ndig â

推荐文章

DotFX · RegEx捕获关键字前但括号后的所有内容

4 月前

user66001 · 正则表达式用于匹配有引号和无引号的文本,并且不匹配任何部分

4 月前

perlchamp · 为什么这也匹配?

4 月前

con · Negative Lookaward在perl正则表达式中不起作用

4 月前

Andrus · 如何在sql中查找第二个匹配项

4 月前

iato · 确保正则表达式不从命名材料中的数字中提取

5 月前

vr8ce · 非成对标记中特定字符的正则表达式

5 月前

MARTIN · 交换第一个和最后一个单词,反转所有中间的字符

5 月前

Carsten · 使用最近的搜索模式更改文本块

5 月前

Eric Marceau · Grep:有没有一种特殊的方法可以将“无字符”作为“字符位置”匹配的置换?

5 月前