了解Unicode编码

时间:2023-03-09 06:21:00
了解Unicode编码

制定Unicode编码标准的组织有两个,一个是国际标准化组织ISO,一个是多语言软件制造商组成的统一码联盟。

通用字符集UCS(Universal Character Set)是由ISO制定的编码方案,UCS-2用2个字节编码,UCS-4用4个字节编码。

unicode转换格式UTF(Unicode Transformation Format)是根据Unicode字符集按照一定转换规则在计算机上实现的编码方案。

UTF-8是可变长度字符编码,与ASCII码相对应的部分(0x00~0x7F之间的字符)依旧是1个字节代表1个字符,并且规则一致。

UTF-16的大部分字符用2字节存储。在没有辅助平面字符前,UTF-16和UCS-2所指的是同一个意思。但当引入辅助平面字符后,就称为UTF-16了。

注:UTF-8、UTF-16等都是字符编码,虽然和Unicode有关系,但它们不是Unicode编码。

注:Windows平台上的记事本的“另存为”弹出框里的“编码”选项解释如下:

  1. ANSI是默认的编码方式。在英文Windows操作系统中,ANSI编码代表ASCII编码;在简体中文Windows操作系统中,ANSI编码代表GBK编码;在繁体中文Windows操作系统中,ANSI编码代表Big5编码;在日文Windows操作系统中,ANSI编码代表Shift_JIS编码。
  2. Unicode指的是UCS-2编码,采用小端模式。
  3. Unicode big endian也是UCS-2编码,采用大端模式。
  4. UTF-8,自查,不解释。