代码之家 › 专栏 › 技术社区 › jacob

读取字符时python中的utf-8问题

utf-8 python

jacob · 技术社区 · 16 年前

我使用的是python 2.5。这是怎么回事?我误解了什么?我怎么修?

TXT:

StÃ¤ckÃ¶vÃ©rflÃ¸w

密码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
print """Content-Type: text/plain; charset="UTF-8"\n"""
f = open('in.txt','r')
for line in f:
    print line
    for i in line:
        print i,
f.close()

输出:

StÃ¤ckÃ¶vÃ©rflÃ¸w

S t ï¿½ ï¿½ c k ï¿½ ï¿½ v ï¿½ ï¿½ r f l ï¿½ ï¿½ w

5 回复 | 直到 11 年前

Miles 16 年前

for i in line:
    print i,

读取文件时,所读取的字符串是一个字节字符串。for循环一次迭代一个字节。这会导致UTF-8编码字符串出现问题,其中非ASCII字符由多个字节表示。如果要使用Unicode对象,其中字符是基本部分,则应使用

import codecs
f = codecs.open('in', 'r', 'utf8')

如果 sys.stdout 尚未设置适当的编码集,您可能需要将其包装:

sys.stdout = codecs.getwriter('utf8')(sys.stdout)

mhawke 16 年前

使用codecs.open,它对我有效。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
print """Content-Type: text/plain; charset="UTF-8"\n"""
f = codecs.open('in','r','utf8')
for line in f:
    print line
    for i in line:
        print i,
f.close()

mikl 16 年前

看看这个:

# -*- coding: utf-8 -*-
import pprint
f = open('unicode.txt','r')
for line in f:
    print line
    pprint.pprint(line)
    for i in line:
        print i,
f.close()

它返回这个:

圣克鲁克
'ST\XC3\xa4ck\xc3\xb6v\xc3\xa9rfl\xc3\xb8w'
S??V?R?L?W?

问题是文件只是作为一个字节串被读取。通过迭代,可以将多字节字符拆分为无意义的字节值。

Artyom 16 年前

print c,

添加一个“空白字符转换器”,并将正确的UTF-8序列拆分为不正确的序列。因此,除非您将一个signle字节写入输出,否则这将不起作用。

sys.stdout.write(i)

j1k00 11 年前

一个人可能只想用

f = open('in.txt','r')
for line in f:
    print line
    for i in line.decode('utf-8'):
        print i,
f.close()

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

4 月前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

4 月前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

5 月前

user29715306 · from_users=和chats=电视节目中的差异

5 月前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

5 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

5 月前

prayner · 更新嵌套字典包含列表中的项

5 月前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

5 月前

Dave · 如何在for循环中修改列表值

5 月前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

5 月前