代码之家 › 专栏 › 技术社区 › TLeo

无法从导出的Instagram聊天记录中解析非ASCII字符[重复]

instagram encoding unicode json python

TLeo · 技术社区 · 1 年前

我请求从Instagram下载数据,并选择了JSON格式。然而,当我获取文件并解压缩时,每个非ASCII字符都表示为Unicode转义序列。例如。:

"sender_name": "Le\u00c3\u00b3 Tak\u00c3\u00a1cs"

正确的文本应为:“sender_name”:“Le Takcs”

我尝试用Python解析JSON文件并以某种方式纠正错误,但我得到的不是“\u00c3\u00b3”的“”。似乎,我尝试的每种方式,它总是返回单独解码的字符。emojies也发生了同样的事情,所以硬编码每个要替换的有问题的字符会有点头疼。我更喜欢一个在编程上可行的解决方案,但在这一点上,任何想法,包括第三方软件,都是可行的。

1 回复 | 直到 1 年前

Andj 1 年前

似乎每个UTF-8字节都被解释为Unicode字符,或者换句话说,UTF-8被解释为拉丁语1编码文本。

data = '"sender_name": "Le\u00c3\u00b3 Tak\u00c3\u00a1cs"'
cleaned = data.encode('latin-1').decode('utf-8')
print(cleaned)
# "sender_name": "LeÃ³ TakÃ¡cs"

即 "Le\u00c3\u00b3 Tak\u00c3\u00a1cs" 本应如此 b'"Le\xc3\xb3 Tak\xc3\xa1cs"' .

推荐文章

TLeo · 无法从导出的Instagram聊天记录中解析非ASCII字符[重复]

1 年前

Guilherme Henrique · Payload Instagram GraphQL中的密钥

2 年前

nikitushu2 · 如何使代码识别Instagram个人资料的“页面不可用”?

2 年前

Hulusi · {“消息”:“CSRF令牌丢失或不正确”,“状态”:“失败”}我遇到错误,如何修复?

2 年前

KKranzo · 有可能使用社交媒体API检索到有史以来第一个帖子吗?

2 年前

Bhanderi Hardik · React.js网络应用程序未在iOS设备上的Instagram应用程序浏览器中打开

2 年前

captainhoot · 使用Instagram SDK分享故事时,我可以使用链接贴纸吗?

2 年前

Abhishek · Instagram:照片上传确认

8 年前

Osein · Instagram广告仅用于商业api?

8 年前

MrJonesIsMe · Instagram API订阅端点要求访问令牌,即使已提供

8 年前