0
|
Free Consulting · 技术社区 · 14 年前 |
![]() |
1
9
需要3个字节的字符从U+0800开始,以及所有后续字符,所以这是一个巨大的潜在字符数。其中包括东亚文字,如日语、中文、韩语和泰语。 有关脚本范围的完整列表,请参阅 Unicode's block data . 只有这些块可以用1或2个字节表示,来自所有其他块的字符需要3或4个字节:
|
![]() |
2
5
我们走到这里:
更多细节: http://en.wikipedia.org/wiki/Mapping_of_Unicode_character_planes ,基本多语言平面,代码来自0x8000。 例如:印度语、泰语、菲律宾语、平假名、片假名。所以所有的东亚剧本和其他一些。 |
![]() |
3
2
你甚至只需要三个字节的英语。例如,正确的撇号以utf-8编码为
__it_trade有点难写英语没有撇号的帮助…__ |
![]() |
4
0
许多亚洲语言都有超过2个字节的表示。虽然事实上,他们可能并不特别需要,但日语和韩语(至少)通常以多字节形式表示。 |