![]() |
1
9
也许你可以使用一个Python脚本 Chardet: Universal Encoding Detector 。它是Firefox使用的字符编码检测的重新实现,由 many different applications .有用链接: Mozilla's code , research paper 它基于(具有讽刺意味的是,我的Firefox未能正确检测到该页面的编码), short explanation , detailed explanation . |
![]() |
2
5
还有 python Universal Encoding Detector 你可以检查一下。 |
![]() |
3
4
我的猜测是:
|
![]() |
4
1
ASCII?现代操作系统不再使用ASCII。它们至少都使用8位代码,这意味着它要么是UTF-8、ISOLatinX、WinLatinX,要么是MacRoman、Shift-JIS或其他任何代码。 我所知道的唯一测试是检查无效的UTF-8字符。如果你发现了,那么你就知道它不可能是UTF-8。UTF-16可能也是如此。但是当它没有Unicode集时,就很难分辨它可能是哪个Windows代码页。 我认识的大多数编辑器都是通过让用户从所有可能的编码列表中选择默认编码来处理这个问题的。 有代码可以检查UTF字符的有效性。 |