汉字占用字节

时间:2022-09-02 22:44:54

汉字占用字节

从一行代码显示说起

# fo.write("学习派森笔记\n")

str = fo.read(9) 
读取的字符是: 学习派

str = fo.read(10)
读取的字符是: 学习派�

str = fo.read(11)
读取的字符是: 学习派�

str = fo.read(12)
读取的字符是: 学习派森

可以看出,utf-8 汉字占用3字节

扩展:

英文字母和中文汉字在不同字符集编码下的字节数
英文字母:

字节数 : 1;编码:GB2312

字节数 : 1;编码:GBK

字节数 : 1;编码:GB18030

字节数 : 1;编码:ISO-8859-1

字节数 : 1;编码:UTF-8

字节数 : 4;编码:UTF-16

字节数 : 2;编码:UTF-16BE

字节数 : 2;编码:UTF-16LE

中文汉字:

字节数 : 2;编码:GB2312

字节数 : 2;编码:GBK

字节数 : 2;编码:GB18030

字节数 : 1;编码:ISO-8859-1

字节数 : 3;编码:UTF-8

字节数 : 4;编码:UTF-16

字节数 : 2;编码:UTF-16BE

字节数 : 2;编码:UTF-16LE