代码之家  ›  专栏  ›  技术社区  ›  Andy

如何解码不完整的UTF-8编码字节字符串[重复]

  •  0
  • Andy  · 技术社区  · 6 年前

    有什么方法可以预处理文本文件并跳过这些字符吗?

    UnicodeDecodeError: 'utf8' codec can't decode byte 0xa1 in position 1395: invalid start byte
    
    0 回复  |  直到 10 年前
        1
  •  11
  •   Irshad Bhat    10 年前

    试试这个:

    str.decode('utf-8',errors='ignore')
    
        2
  •  2
  •   Ve Pham    10 年前

    我认为你的文本文件有一些特殊字符,所以“utf-8”无法解码。

    您需要尝试使用“ISO-8859-1”而不是“utf-8”。这样地:

       import sys
       reload(sys).setdefaultencoding("ISO-8859-1")
    
       # put your code here