Bootstrap

代码点和代码单元

代码点:计算机处理字符时要将字符数字化,所以需要对字符进行编码。编码字符集中每个字符都与一个编号对应,我们将这个编号称为代码点。

代码单元:指一个已编码文本中具有最短比特组合的单元。使用UTF-8,代码单元为8比特;使用UTF-16,代码单元为16比特。
Unicode编码字符集有65536个字符,将这些字符表示成统一长度每个字符需要2个字节,即16比特,所以若使用UTF-8编码,每个字符需要2个代码单元;使用UTF-16编码,需要1个代码单元。

因此一串字符串代码点和代码单元数量可能不等。

String s = "Hello";

int n = s.length();  //得到的长度为代码单元数量
int cpCount = s.codePointCount(0, s.length()); //得到代码点数量,即实际长度

char a = s.charAt(n); //返回位置为n的代码单元
int index = s.offsetByCodePoins(0, n);
char cp = (char) s.codePointAt(index); //返回第n个代码点对应的字符
;