代码之家 › 专栏 › 技术社区 › Brian M. Hunt

正则表达式匹配所有unicode引号

character-properties quotes unicode regex

1

Brian M. Hunt · 技术社区 · 16 年前

quotes = ur"[\"'\u2018\u2019\u201c\u201d]"

谢谢你的阅读。

2 回复 | 直到 14 年前

1

5

Tim Pietzcker 16 年前

Python不支持Unicode属性,因此不能使用 Pi 和 Pf 属性,所以我猜你的解决方案是最好的。

你可能还想考虑一下正在被不幸使用的“假引号”——尖锐而严肃的口音( Â´ 以及`` ): \u0060型 and \u00B4`。

Â« Â» â¹ âº ),你也要这些吗?使用 \u00BB\u203A\u00AB\u2039 为了那些。

quotes 字符串(因为您使用的是原始字符串)。请改用三重引号字符串。

>>> quotes = ur"[\"'\u2018\u2019\u201c\u201d\u0060\u00b4]"
>>> "\\" in quotes
True
>>> quotes
u'[\\"\'\u2018\u2019\u201c\u201d`\xb4]'
>>> quotes = ur"""["'\u2018\u2019\u201c\u201d\u0060\u00b4]"""
>>> "\\" in quotes
False
>>> quotes
u'["\'\u2018\u2019\u201c\u201d`\xb4]'

2

5

dan04 16 年前

Pi (标点、首引号)或 Pf ' 和 "