代码之家 › 专栏 › 技术社区 › ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï

Python检查是否分配了Unicode代码点

unicode python-3.x python

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · 技术社区 · 4 年前

我正在使用Python3,我对它了如指掌 hex , int chr , ord , '\uxxxx' '\U00xxxxxx' escape和Unicode有1114111个代码点。。。

我的问题很简单:如何检查Unicode码点是否是有效的Unicode码点,Unicode码点仅在明确映射到权威定义的字符时才是有效的码点。

例如,代码点720是有效的Unicode,十六进制为0x2d0,U+02D0指向:

In [135]: hex(720)
Out[135]: '0x2d0'

In [136]: '\u02d0'
Out[136]: 'Ë'

In [137]: hex(888)
Out[137]: '0x378'

In [138]: '\u0378'
Out[138]: '\u0378'

In [139]: chr(127744)
Out[139]: 'ð'

并且0xe0000无效:

In [140]: '\U000e0000'
Out[140]: '\U000e0000'

那么如何检查代码点是否有效?

我提出了一个相当棘手的解决方案,因为如果一个代码点是有效的,尝试将其转换为一个字符将导致解码字符或 '\xhh' 转义序列,否则它将返回与原始序列完全相同的未编码转义序列,我可以检查 chr 并检查它是否以 '\u' 或 '\U' ...

chr repr 返回值并检查结果。。。

我已使用此方法识别所有无效代码点:

In [130]: invalid = []

In [131]: for i in range(1114112):
     ...:     if any(f'{chr(i)!r}'.startswith(j) for j in ("'\\U", "'\\u")):
     ...:         invalid.append(i)

In [132]: from pathlib import Path

In [133]: invalid = [(hex(i).removeprefix('0x'), i) for i in invalid]

In [134]: Path('D:/invalid_unicode.txt').write_text(',\n'.join(map(repr, invalid)))
Out[134]: 18574537

有谁能提供更好的解决方案吗?

1 回复 | 直到 4 年前

Ture Pålsson 4 年前

我想 unicodedata.name() 你想干什么就干什么。

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

9 月前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

9 月前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

9 月前

user29715306 · from_users=和chats=电视节目中的差异

9 月前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

9 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

9 月前

prayner · 更新嵌套字典包含列表中的项

9 月前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

9 月前

Dave · 如何在for循环中修改列表值

9 月前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

9 月前