python2.X编码

1、Python文件的编码

在Python文件中，可以在第一或第二行指定文件的编码格式（以注释的形式加），这也是Python语法规定的，见http://www.python.org/peps/pep-0263.html。比如用utf8格式存储文件，就要加# -*- coding:gbk -*- 或 # coding = gbk，其中，# -*- coding:gbk -*-这种格式是很多流行的文本编辑器都支持的，此处我使用的是Eclipse+Pydev。指定文件编码格式有两个作用：一是告诉文本编辑器要用指定的编码存储文件；二是告诉Python语法分析器以哪种编码格式来读取分析文件。一个是写入，一个是读取，编码和解码要一致才行。如果没有写上面的‘指定编码行’，那编码和解码就用默认值，文本编辑器的默认文件的编码可以自己修改，Python语法分析器默认用ASCII码解析文件，ASCII码范围是0~127，这样，当文件的某个字节的值大于127时，就会出错，如下。

test.py文件：

a = '你'

print a

当调试时，语法分析器检查出错误，SyntaxError: Non-ASCII character '\xc4' in file E:\test.py on line 1, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details。

我的eclips的默认编码是GBK，'你'的GBK编码是c4e3，查看test.py的二进制代码，的确如此。c4>127，ASCII码表中没有对应的字符，就报错了。

因此，对于有非ASCII字符的代码文件，第一行或第二行一定要指定编码格式，建议使用utf-8编码，这种编码格式非常通用。即# -*- coding:utf-8 -*-

1、Python文件的编码

Python2.7中字符串有两个类型：string类型、unicode类型。比如

test2.py文件：

# -*- coding:utf-8 -*-

a = '你'

b = u'你'

a是string类型，b是unicode类型，与文件的编码格式有什么关系呢？OK，test2.py是以utf-8编码后保存的，同一个文件中所有字符的编码格式都是一样的，不可能说a以utf8保存，而b以unicode保存（ucs2或ucs4）。当运行代码时，Python语法分析器会先检查语法，没有问题后，再交由Python解释器执行，对于a，解释器保存的就是其值'你'的utf8编码e4bda0，对于b，解释器通过u识别出它是unicode字符串，那就将其值由utf8转换成unicode放在内存。在python解释器中可以验证，

1、Python文件的编码

1、Python文件的编码

相关文章