[py]编码 Unicode utf-8

时间:2023-03-09 05:31:23
[py]编码 Unicode utf-8

什么是字符集

在介绍字符集之前,我们先了解下为什么要有字符集。我们在计算机屏幕上看到的是实体化的文字,而在计算机存储介质中存放的实际是二进制的比特流。那么在这两者之间的转换规则就需要一个统一的标准,否则把我们的U盘插到老板的电脑上

[py]编码 Unicode utf-8

0,

utf-8占3个byte

Unicode占2个byte,而且较为智能,字符自动占一个字符

anscii占1个byte

1,实例

>>>name='马明' #xshell默认存成了utf8

>>>name

>>>'\xe9\xa9\xac\xe6\x98\x8e'

>>>

>>>print '\xe9\xa9\xac\xe6\x98\x8e' #可以直接打印utf8

>>>马明

>>>

>>>type(name)

>>>str

>>>

2,定义Unicode编码

2.1从utf-8转换到Unicode

>>>name.decode('utf-8')

>>>u'\u9a6c\u660e'

#name本身存成了utf8编码

将name解码成Unicode

>>>b=name.decode('utf-8')

>>>

>>>b

>>>u'\u9a6c\u660e'

>>>

#将Unicode编码成utf-8

>>>b.encode('utf-8')

>>>'\xe9\xa9\xac\xe6\x98\x8e'

#####文件里使用#coding=utf8

2.2自己指定存放编码

>>>name=u'马明'