代码之家 › 专栏 › 技术社区 › Kevin Patel

UTF-8内容在Java中是否可能格式错误

charset encoder-decoder character-encoding utf-8 java

Kevin Patel · 技术社区 · 1 年前

我正在尝试用java创建一个测试用例来测试

decoder.onMalformedInput(CodingErrorAction.REPLACE);
decoder.onUnmappableCharacter(CodingErrorAction.REPLACE);

我需要UTF_8字符集中的一些字符来测试它们。

1 回复 | 直到 1 年前

Basil Bourque 1 年前

tl;博士

UTF-8几乎可以代表地球上的任何字符,也就是Unicode中的所有字符。

如果您询问UTF-8内容的样本是否存在格式错误,可以。以违反 rules described in Wikipedia 。我想这会触发你 onMalformedInput 但我没有试过。

Unicode中大多数可能的代码点都有不已分配给任何字符。其中一些是为 âprivate useâ ( Klingon 等等)。其中一些是为将来使用而保留的。也许UTF-8编码的文本包含任何为将来使用而保留的代码点,会触发 onUnmappableCharacter ,但我没有试过。

未包含在UTF_8字符集中的任何字符

你把两件不同的事情混为一谈:

Unicode 是一个人物集,试图代表所有现存的和最具学术意义的死语言的人物。Unicode是所有其他字符集的超集。目前,Unicode 15已识别149186个字符。每个字符都被分配了一个代码点号,范围从零到100多万。

UTF-8 是一种字符编码,使用一个或多个八位字节来表示每个分配的数字。UTF-8可以表示Unicode可以分配的超过一百万个可能的数字中的任何一个。

因此,你很难找到地球上大多数人使用的任何尚未在Unicode中列出的字符。所有这些字符都可以用UTF-8编码。

推荐文章

Bard.Mus · 迁移后的数据库字符集环境

4 月前

David · 何时实际应用字符编码?

5 月前

Meltryllis · java生成的UTF-16LE编码的Desktop.ini在包含中文字符时不起作用

5 月前

Karlomanio · 区分两个西里尔字母字符串

1 年前

Gabriel Lucizano · 为什么我无法访问C中的文件

1 年前

Mira Kumar · 在网页上显示特殊字符

1 年前

jay.sf · 如何在pdf中使用UTF-8编码的字符矢量?

1 年前

Kevin Patel · UTF-8内容在Java中是否可能格式错误

1 年前

Cooper Labinger · HTML标记是否可以在不使用标准“<”字符的情况下呈现在纯HTML文档中?

1 年前

Murilo lima alves · Visual Studio代码-使用差异屏幕时TFVC项目中的文件编码

7 年前