关于JS中字符串的编码

JavaScript029

关于JS中字符串的编码,第1张

Unicode 作为字符编码的标准,它用 码位 (code point)来索引某个字符(全球统一标识符), 字符编码 用来标识码位,一个字符编码视为一个 编码单元 。在 JavaScript 里,字符串基于16位的字符编码(UTF-16,Unicode 的其中一种)来构建一个编码单元(以十或十六进制表示)。

前65535个字符编码称之为 基本多文种平面字符 (BMP, Basic multilingual plane ),一个编码标识一个码位;当超出 BMP 的范围时就会用两个编码(代理对)来标识一个码位,称之为 辅助平面字符 。大部分字符都处在 BMP 范围内,另有一部分字符处在辅助平面内,这导致一些问题,比如“