代码之家 › 专栏 › 技术社区 › kobrien

当我不能预先知道字符编码时,如何打印字符串列表?

encoding python

kobrien · 技术社区 · 14 年前

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: 
                    ordinal not in range(128)

因为我不知道编码是什么,我如何将所有这些字符串转换成unicode?或者你能提出一个更好的方法来处理这个问题吗?

3 回复 | 直到 14 年前

Mark Tolonen 14 年前

首先,你解码缺席 (指编码)读取文件、管道、插座、终端等时;以及编码

print sys.stdout.encoding )或者在没有这些的情况下 ascii . 如果目标编码不支持数据中的字符,则会得到 UnicodeEncodeError

因为这不是你收到的错误,你应该张贴一些代码,这样我们就可以看到你正在做什么。很可能,你是编码解码 . 下面是一个例子:

>>> data = '\xc2\xbd' # UTF-8 encoded 1/2 symbol.
>>> data.encode('cp437')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\dev\python\lib\encodings\cp437.py", line 12, in encode
    return codecs.charmap_encode(input,errors,encoding_map)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128)

我在这里做的是打电话 encode 在字节字符串上。自需要Unicode字符串,Python使用默认值 ascii码 先将字节字符串解码为Unicode,然后再将其编码为Unicode cp437

通过解码而不是编码数据来解决这个问题,然后 打印

>>> import sys
>>> sys.stdout.encoding
'cp437'
>>> print data.decode('utf8') # implicit encode to sys.stdout.encoding
Â½
>>> print data.decode('utf8').encode('cp437') # explicit encode.
Â½

leoluk 14 年前

这个 UnicodeDammit 模块来自 BeautifulSoup 可以自动检测编码。

from BeautifulSoup import UnicodeDammit

u = UnicodeDammit("Ãlafur JÃ³hann Ãlafsson")

print u.unicode
print u.originalEncoding

dmitko 14 年前

http://wiki.python.org/moin/PrintFails

推荐文章

July · 如何定义数字间隔,然后四舍五入

1 年前

Community wiki · 对象名称前的单下划线和双下划线的含义是什么?

1 年前

Brian Johnson · 为什么在Python中列出字典列表会引发TypeError?[已关闭]

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

Ashok Shrestha · 需要追踪特定的颜色线并获取坐标

1 年前

Nicote Ool · 在FastApi和Vue3中获得422

1 年前

NeoExceptCodeBad · 如果我有很多垂直线,我如何找到它们的边缘?

1 年前

Abdulaziz · 如何对集合内的列表进行排序[重复]

1 年前

user2743931 · 带有src目录的Python setup.py

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前