![]() |
1
2
tl;博士UTF-8几乎可以代表地球上的任何字符,也就是Unicode中的所有字符。
如果您询问UTF-8内容的样本是否存在格式错误,可以。以违反
rules described in Wikipedia
。我想这会触发你
Unicode中大多数可能的代码点都有
不
已分配给任何字符。其中一些是为
âprivate useâ
(
Klingon
等等)。其中一些是为将来使用而保留的。也许UTF-8编码的文本包含任何为将来使用而保留的代码点,会触发
详细信息
你把两件不同的事情混为一谈:
Unicode 是一个人物集,试图代表所有现存的和最具学术意义的死语言的人物。Unicode是所有其他字符集的超集。目前,Unicode 15已识别149186个字符。每个字符都被分配了一个代码点号,范围从零到100多万。 UTF-8 是一种字符编码,使用一个或多个八位字节来表示每个分配的数字。UTF-8可以表示Unicode可以分配的超过一百万个可能的数字中的任何一个。 因此,你很难找到地球上大多数人使用的任何尚未在Unicode中列出的字符。所有这些字符都可以用UTF-8编码。 |
![]() |
Bard.Mus · 迁移后的数据库字符集环境 4 月前 |
![]() |
David · 何时实际应用字符编码? 5 月前 |
![]() |
Karlomanio · 区分两个西里尔字母字符串 1 年前 |
![]() |
Gabriel Lucizano · 为什么我无法访问C中的文件 1 年前 |
![]() |
Mira Kumar · 在网页上显示特殊字符 1 年前 |
![]() |
jay.sf · 如何在pdf中使用UTF-8编码的字符矢量? 1 年前 |
![]() |
Kevin Patel · UTF-8内容在Java中是否可能格式错误 1 年前 |