![]() |
1
2
tl;博士UTF-8几乎可以代表地球上的任何字符,也就是Unicode中的所有字符。
如果您询问UTF-8内容的样本是否存在格式错误,可以。以违反
rules described in Wikipedia
。我想这会触发你
Unicode中大多数可能的代码点都有
不
已分配给任何字符。其中一些是为
âprivate useâ
(
Klingon
等等)。其中一些是为将来使用而保留的。也许UTF-8编码的文本包含任何为将来使用而保留的代码点,会触发
详细信息
你把两件不同的事情混为一谈:
Unicode 是一个人物集,试图代表所有现存的和最具学术意义的死语言的人物。Unicode是所有其他字符集的超集。目前,Unicode 15已识别149186个字符。每个字符都被分配了一个代码点号,范围从零到100多万。 UTF-8 是一种字符编码,使用一个或多个八位字节来表示每个分配的数字。UTF-8可以表示Unicode可以分配的超过一百万个可能的数字中的任何一个。 因此,你很难找到地球上大多数人使用的任何尚未在Unicode中列出的字符。所有这些字符都可以用UTF-8编码。 |
|
user29759326 · 如何返回递归函数中的最后一个值? 3 月前 |
|
malife89 · 将java中的字符串读取为正确的日期格式 3 月前 |
![]() |
Tim · 在java中,有没有更快的方法将字节数组写入文件? 3 月前 |
![]() |
rudraraj · java中未声明最终变量 4 月前 |
![]() |
Bala Ji · 以下BFS的实施效率如何? 4 月前 |