代码之家 › 专栏 › 技术社区 › Minions

检测正则表达式中的拉丁字符

regex python

Minions · 技术社区 · 7 年前

我想在拉丁语文本上应用正则表达式,我遵循了这个问题的解决方案: How to account for accent characters for regex in Python? ,建议在正则表达式之前添加#字符。

def clean_str(string):
    string = re.sub(r"#(@[a-zA-Z_0-9]+)", " ", string, re.UNICODE)
    string = re.sub(r'#([^a-zA-Z0-9#])', r' \1 ', string, re.UNICODE)
    string = re.sub(r'#([^a-zA-Z0-9#])', r' ', string, re.UNICODE)
    string = re.sub(r'(\s{2,})', ' ', string, re.UNICODE)
    return string.lower().strip()

我的问题是,正则表达式可以检测拉丁字符,但没有从文本的正则表达式集中应用任何东西。

示例: 如果我有一个像“@aaa bbb cc.ddd”这样的文本。

它应该像“bbb cc.ddd”,在“点”之前加上空格,并删除标记“@aaa”。

但它会生成相同的输入文本!:“@aaa bbb cÃc.ddd”

我错过什么了吗?

1 回复 | 直到 5 年前

Wiktor StribiÅ¼ew 7 年前

当前代码中有几个问题:

要匹配任何Unicode单词char,请使用 \w (而不是 [A-Za-z0-9_] )使用Unicode标志
使用时 re.U 具有 re.sub ,请记住使用计数参数(将其设置为0以匹配所有事件),或仅使用 flags=re.U / flags=re.UNICODE
要匹配除空格以外的任何非单词字符,可以使用 [^\w\s]
如果要替换为整个匹配,则不必使用 (...) ,只需确保使用 \g<0> 替换模式中的反向引用。

请参阅清理字符串的更新方法:

>>> def clean_str(s):
...     s = re.sub(r'@\w+', ' ', s, flags=re.U)
...     s = re.sub(r'[^\w\s]', r' \g<0>', s, flags=re.U)
...     s = re.sub(r'\s{2,}', ' ', s, flags=re.U)
...     return s.lower().strip()
...
>>> print(clean_str(s))
puta asquerosa cÃ¡llate . sino

推荐文章

DotFX · RegEx捕获关键字前但括号后的所有内容

4 月前

user66001 · 正则表达式用于匹配有引号和无引号的文本,并且不匹配任何部分

4 月前

perlchamp · 为什么这也匹配?

4 月前

con · Negative Lookaward在perl正则表达式中不起作用

4 月前

Andrus · 如何在sql中查找第二个匹配项

4 月前

iato · 确保正则表达式不从命名材料中的数字中提取

5 月前

vr8ce · 非成对标记中特定字符的正则表达式

5 月前

MARTIN · 交换第一个和最后一个单词,反转所有中间的字符

5 月前

Carsten · 使用最近的搜索模式更改文本块

5 月前

Eric Marceau · Grep:有没有一种特殊的方法可以将“无字符”作为“字符位置”匹配的置换?

5 月前