![]() |
1
2
tl;博士UTF-8几乎可以代表地球上的任何字符,也就是Unicode中的所有字符。
如果您询问UTF-8内容的样本是否存在格式错误,可以。以违反
rules described in Wikipedia
。我想这会触发你
Unicode中大多数可能的代码点都有
不
已分配给任何字符。其中一些是为
âprivate useâ
(
Klingon
等等)。其中一些是为将来使用而保留的。也许UTF-8编码的文本包含任何为将来使用而保留的代码点,会触发
详细信息
你把两件不同的事情混为一谈:
Unicode 是一个人物集,试图代表所有现存的和最具学术意义的死语言的人物。Unicode是所有其他字符集的超集。目前,Unicode 15已识别149186个字符。每个字符都被分配了一个代码点号,范围从零到100多万。 UTF-8 是一种字符编码,使用一个或多个八位字节来表示每个分配的数字。UTF-8可以表示Unicode可以分配的超过一百万个可能的数字中的任何一个。 因此,你很难找到地球上大多数人使用的任何尚未在Unicode中列出的字符。所有这些字符都可以用UTF-8编码。 |
![]() |
donefun · 在PHP中将波兰语字符存储为变量 2 年前 |
![]() |
AFX · 这是AES密钥的有效字节字符串吗? 7 年前 |
|
jubimk4 · UTF-8中的PUPPET无效字节序列 7 年前 |
![]() |
user3286053 · utf-8在列表中搜索单词 7 年前 |