![]() |
1
33
请尝试以下操作:
编辑 查看下面Martijn Pieters的有用评论。 |
![]() |
2
16
我知道这个问题有点过时,但您也可以考虑在原始正则表达式中添加重音字符(索引192)和(索引255)的范围。
哪个会回来
希望这能帮助到其他人。 |
![]() |
3
4
您可能还想使用
如何将所有这些转义字符转换为它们各自的字符,就像如果有unicode一样,如何将其转换为标准的a? 假设您已经将unicode加载到一个名为my_unicode的变量中。。。标准化为a就是这么简单。。。 导入unicodedata output=unicodedata.normalize('NFD',my_unicode).encode('ascii','ignore') 显式示例。。。
检查这个答案,它对我帮助很大: How to convert unicode accented characters to pure ascii without accents? |
![]() |
4
0
以下是根据Martijn Pieters对答案的评论和Martijn Peters给出的另一个答案对Ibrahim Najjar的原始答案的更新 https://stackoverflow.com/a/16467505/5302861 :
|
![]() |
5
0
在所有其他答案的基础上:
关键问题是re模块与其他正则表达式引擎在很大程度上不同。理论上,Unicode对
简单的解决方案是交换正则表达式引擎,使用更兼容的解决方案。最简单的方法是安装regex模块并使用它。然后,其他一些答案给出的代码将根据问题的需要工作。
或者,如果你只关注拉丁文字,包括非空格标记(即组合变音符号):
附言:我使用了unicodedataplus,它是unicodedata的一个替代品。它有额外的方法,并且它与Unicode版本保持同步。随着unicodedata模块的更新,Unicode版本需要更新Python。 |
![]() |
Aisha Javed · 从文件中删除非Unicode字符 7 年前 |
![]() |
longtimelurker42 · Unicode--版权符号 7 年前 |
![]() |
AM93 · Python:在ISO 8859-1中写入COM 7 年前 |
|
Anuvansh Kumar · putc()在c中返回什么? 7 年前 |
|
dust · ElementTree中的非ASCII属性值 10 年前 |