Python | 多种编码文件(中文)乱码问题解决

时间:2023-03-09 08:15:02
Python | 多种编码文件(中文)乱码问题解决

问题线索

  1. 1

    可以知道的是,文本文件的默认编码并不是utf8。

    我们打开一个文本文件,并点击另存为

    Python | 多种编码文件(中文)乱码问题解决
  2. 2

    我们在新窗口的编码一栏看到默认编码是ANSI。先不管这个编码是什么编码,但是通过下拉列表我们知道,这种编码不是utf8。

    Python | 多种编码文件(中文)乱码问题解决
    Python | 多种编码文件(中文)乱码问题解决
    END

编码测试

  1. 1

    对于Python里面的中文显示,我们常常使用utf8和gbk的编码。对于这两种编码笔者就不介绍了,总之都是专门可以处理中文的编码方式啦。

    Python | 多种编码文件(中文)乱码问题解决
  2. 2

    我们首先对文本文件测试了gbk解码。我们发现,此编码下文本文件内容可以正常显示,但是使用utf8解码,程序出错,抛出decodeError异常

    Python | 多种编码文件(中文)乱码问题解决
  3. 3

    同样的,我们对Python脚本文件测试了utf8解码。我们发现,此编码下文本文件内容可以正常显示,但是使用gbk解码,中文部分出现乱码

    Python | 多种编码文件(中文)乱码问题解决
  4. 4

    测试说明,对于文本文件需要使用gbk解码,而对于脚本文件需要utf8解码,也就是说,文本文件是gbk编码的,而脚本则是utf8

    END

解决法一:异常处理

  • 我们从上面的编码测试发现,文本文件在使用utf8解码时会抛出异常,所以我们在代码中可以做如下处理——也就是在异常抛出时采用gbk解码

    Python | 多种编码文件(中文)乱码问题解决
  • 经过测试,发现程序可以满足两种文件正常显示

    Python | 多种编码文件(中文)乱码问题解决
    END

解决法二:文件类型

  • 因为确定是这两种文件,所以可以直接判断文件类型选择对应解码了。经过测试,也成功了。

    Python | 多种编码文件(中文)乱码问题解决
    Python | 多种编码文件(中文)乱码问题解决
    END

终极解法:chardet

  1. chardet模块可以检测字符编码,应该说是类似问题的终极解决。先安装一下

    Python | 多种编码文件(中文)乱码问题解决
    Python | 多种编码文件(中文)乱码问题解决
  2. 通过下面代码测试一下两种文件的编码。我们看到,通过chardet模块返回的是一个字典。字典的前一个元素是编码检查的概率,后一个是编码类型

    Python | 多种编码文件(中文)乱码问题解决
    Python | 多种编码文件(中文)乱码问题解决
  3. 我们看到,文本文件的编码方式是GB2312,而我们上面使用gbk的解码也是可以的,那是因为gb2312是gbk的一个子集(GBK/1、GBK/2是GB2312区域)

    Python | 多种编码文件(中文)乱码问题解决
  4. 现在我们修改一下最终的代码,把这个编码问题解决掉~

    Python | 多种编码文件(中文)乱码问题解决