【转】字符编码笔记:ASCII,Unicode和UTF-8

时间:2023-01-05 10:19:23

很详细也很易懂的一篇文章,很清楚的讲解了ASCII、Unicode、UTF-8三个概念,总结如下:
- ASCII: 英文字符的字符集
- Unicode: (理论上)所有字符的字符集,规定了每个字符的二进制代码
- UTF-8: Unicode的一种实现,规定了二进制代码的存储标准

简单的代码:

System.out.println(Integer.toHexString((int)'严')); // 4e25

控制台输出4e25,即“严”这个字的Unicode二进制代码。
也就是说在Java中代表字符的编码是Unicode码,Java默认使用UTF-8编码指的是Unicode码按照UTF-8规定的标准存储。

原文地址:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html