代码之家 › 专栏 › 技术社区 › Andy

如何解码不完整的UTF-8编码字节字符串[重复]

character-encoding utf-8 python-3.x

Andy · 技术社区 · 6 年前

有什么方法可以预处理文本文件并跳过这些字符吗?

UnicodeDecodeError: 'utf8' codec can't decode byte 0xa1 in position 1395: invalid start byte

0 回复 | 直到 10 年前

Irshad Bhat 10 年前

试试这个:

str.decode('utf-8',errors='ignore')

Ve Pham 10 年前

我认为你的文本文件有一些特殊字符,所以“utf-8”无法解码。

您需要尝试使用“ISO-8859-1”而不是“utf-8”。这样地:

   import sys
   reload(sys).setdefaultencoding("ISO-8859-1")

   # put your code here

推荐文章

Murilo lima alves · Visual Studio代码-使用差异屏幕时TFVC项目中的文件编码

7 年前

Buddhika Chathuranga · Python3 UnicodeEncodingError

7 年前

Gary McGill · 我可以在Knockout中“扩展”这个“值”绑定来进行简单的字符替换吗?

7 年前

Entretoize · 找不到用于在joomla db中插入项目的良好编码

7 年前

Abdul Rehman · 读取文本文件返回UnicodeDecodeError:“utf-8”编解码器无法在Python中解码字节0x92[重复]

7 年前

Brian Leishman · 为什么有些二进制文件在存储字符串时字符之间有空字节?

7 年前

dukyz · 为什么java中的字符串解码和编码并不总是对称的?

7 年前

CHHIBI AMOR · 如何在liquibase sql for oracle上指定字符编码?

7 年前

BugShotGG · 如何在c中处理ifstream、cout等的多个区域设置++

7 年前

Yusuf Yildirim · 当我试图用strlen()获取字符串中的字符计数时,为什么返回2?[副本]

7 年前