代码之家 › 专栏 › 技术社区 › Bjorn

无法在os x terminal.app上解码python中的utf-8字符串

terminal unicode macos python

Bjorn · 技术社区 · 17 年前

>>> wtf = u'\xe4\xf6\xfc'.decode()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-2: ordinal not in range(128)
>>> wtf = u'\xe4\xf6\xfc'.decode('utf-8')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/System/Library/Frameworks/Python.framework/Versions/2.5/lib/python2.5/encodings/utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-2: ordinal not in range(128)

有人知道我做错了什么吗?

4 回复 | 直到 17 年前

sth 15 年前

我认为到处都是编码/解码混乱。从unicode对象开始:

u'\xe4\xf6\xfc'

这是一个unicode对象,三个字符是“·”的unicode代码点。如果你想把它们变成Utf-8,你必须编码他们:

>>> u'\xe4\xf6\xfc'.encode('utf-8')
'\xc3\xa4\xc3\xb6\xc3\xbc'

如果你打电话 decode(...) ,尝试将字符解释为仍需要转换为unicode的某种编码。因为它已经是Unicode,所以这不起作用。第一个调用尝试Ascii到Unicode的转换,第二个调用尝试Utf-8到Unicode的转换。自从 u'\xe4\xf6\xfc'

进一步的混乱可能来自以下事实: '\xe4\xf6\xfc' 也是拉丁1/ISO-8859-1编码的“·”。如果您编写了一个普通的python字符串(没有前导的“u”标记为unicode),您可以使用 decode('latin1') :

>>> '\xe4\xf6\xfc'.decode('latin1')
u'\xe4\xf6\xfc'

tzot 17 年前

我认为编码和解码是反向的。将Unicode编码为字节流,并将字节流解码为Unicode。

Python 2.6.1 (r261:67515, Dec  6 2008, 16:42:21) 
[GCC 4.0.1 (Apple Computer, Inc. build 5370)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> wtf = u'\xe4\xf6\xfc'
>>> wtf
u'\xe4\xf6\xfc'
>>> print wtf
Ã¤Ã¶Ã¼
>>> wtf.encode('UTF-8')
'\xc3\xa4\xc3\xb6\xc3\xbc'
>>> print '\xc3\xa4\xc3\xb6\xc3\xbc'.decode('utf-8')
Ã¤Ã¶Ã¼

besen 17 年前

>>> wtf = '\xe4\xf6\xfc'
>>> wtf
'\xe4\xf6\xfc'
>>> print wtf
ï¿½ï¿½ï¿½
>>> print wtf.decode("latin-1")
Ã¤Ã¶Ã¼
>>> wtf_unicode = unicode(wtf.decode("latin-1"))
>>> wtf_unicode
u'\xe4\xf6\xfc'
>>> print wtf_unicode
Ã¤Ã¶Ã¼

dbr 17 年前

Unicode strings 介绍性教程的一节对此进行了很好的解释:

要使用特定编码将Unicode字符串转换为8位字符串,Unicode对象提供一个encode()方法,该方法接受一个参数,即编码的名称。编码首选小写名称。
>>> u"Ã¤Ã¶Ã¼".encode('utf-8')
'\xc3\xa4\xc3\xb6\xc3\xbc'

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

1 年前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

1 年前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

1 年前

user29715306 · from_users=和chats=电视节目中的差异

1 年前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

1 年前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

1 年前

prayner · 更新嵌套字典包含列表中的项

1 年前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

1 年前

Dave · 如何在for循环中修改列表值

1 年前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

1 年前