代码之家 › 专栏 › 技术社区 › Thierry Lam

为什么python输出相同值的字符串和unicode不同?

unicode python

Thierry Lam · 技术社区 · 15 年前

我使用的是python 2.6.5,当我在python shell中运行以下命令时,我得到:

>>> print u'Andr\xc3\xa9'
AndrÃÂ©
>>> print 'Andr\xc3\xa9'
AndrÃ©
>>>

上面的解释是什么?考虑到“andr\xc3\xa9”,如何在HTML页面中正确显示上述值,使其显示andr_)而不是andr_)?

3 回复 | 直到 15 年前

interjay 15 年前

'\xc3\xa9' 是Unicode字符的UTF-8编码 u'\u00e9' (也可指定为 u'\xe9' )所以你可以用 u'Andr\u00e9' 或 u'Andr\xe9' .

您可以从一个转换到另一个:

>>> 'Andr\xc3\xa9'.decode('utf-8')
u'Andr\xe9'
>>> u'Andr\xe9'.encode('utf-8')
'Andr\xc3\xa9'

注意原因 print 'Andr\xc3\xa9' 给出的预期结果只是因为系统的默认编码是UTF-8。例如,在Windows上,我得到:

>>> print 'Andr\xc3\xa9'
Andrââ

至于输出HTML,这取决于您使用的Web框架以及您在HTML页面中输出的编码。一些框架(例如Django)会自动将Unicode值转换为正确的编码,而其他框架则要求您手动转换。

darelf 15 年前

试试这个:

>>> unicode('Andr\xc3\xa9', 'utf-8')
u'Andr\xe9'
>>> print u'Andr\xe9'
AndrÃ©

那可以回答你的问题。

编辑:或查看以上答案

-2

Uri 15 年前

我不确定,但我想打印操作会应用不同的编解码器。可能是UTF-8和Unicode的问题。

对于HTML,您需要使用Unicode的HTML语法对某些字符进行编码。我认为巨蟒 codecs 模块可能会帮助您。

推荐文章

M - · 为什么两个相同的表情符号不相等?

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

Mohsen · 将字符串从Windows 1256转换为UTF-8

7 年前

jpantina · 如何使用Python 3导入带有保存为Unicode文本的CSV扩展名的Excel文件?

7 年前

Bao Thai · 使用pandas数据帧在python中将utf转换为ascii

7 年前

AMINA ARSHAD · 从字符转换为Unicode数字时出错

7 年前

Maverick · VS2017 C++编译器错误C2664无法转换参数

7 年前

Ivan Bilan · Python 2字符串以某种方式保存为纯Unicode

7 年前

Taqwa · 在C#[已关闭]中将上标转换为Unicode

7 年前

ecjb · 无法在Jupyter的PDF输出中显示Unicode字符(如)

7 年前