Fundebug经授权转载,版权归原作者所有。
JavaScript 处理 Unicode 的方式至少可以说是令人惊讶的。本文解释了 JavaScript 中的 处理 Unicode 相关的痛点,提供了常见问题的解决方案,并解释了ECMAScript 6 标准如何改进这种情况。
Unicode 基础知识
在深入研究 JavaScript 之前,先解释一下 Unicode 一些基础知识,这样在 Unicode 方面,我们至少都了解一些。
Unicode 是目前绝大多数程序使用的字符编码,定义也很简单,用一个 码位(code point) 映射一个字符。码位值的范围是从 U+0000
到 U+10FFFF
,可以表示超过 110 万个字符。下面是一些字符与它们的码位。
- A 的码位 U+0041
- a 的码位 U+0061
- © 的码位 U+00A9
- ☃ 的码位 U+2603