Bootstrap

JAVA 代码点和代码单元

代码点指编码表(比如Unicode)中某个字符的代码值(数字),在Unicode标准中,代码点采用十六进制书写,书写时前面加U+,比如U+0041是字母A的代码点.
Unicode的代码点可以分为17个代码级别。第一个代码级别称为基本的多语言级别,代码点从U+0000到U+FFFF,其余16个附加级别,代码点从U+10000到U+10FFFF,其中包含了一些辅助字符。
UTF-16编码采用不同长度的编码表示所有的Unicode编码。基本的多语言级别,每个字符用16位表示;而辅助字符采用一对连续的代码单元进行编码。这样构成的编码值一定落入基本的多语言级别中空闲的2048字节内,通常成为替代区域。U+D800--U+DBFF用于第一个代码单元,U+DC00--U+DFFF用于第二个代码单元。

java中的代码单元指表示编码表字符的最小存储单元,用16位表示

Unicode  U+0041 U+00DF U+6771 U+10400
表示字形
UTF-32 码单
00000041
000000DF
00006771
00010400
UTF-16 码单
0041
00DF
6771
D801 DC00
UTF-8 码单
41
C3 9F
E6 9D B1
F0 90 90 80
;