正确读取 ANSI 编码的文本文件 UTF8

时间:2023-01-10 15:36:34

摘要: 当你用Windows记事本保存文本文件时,默认会使用ANSI编码保存,如果文本包含中文的话,会用GB18030标准编码(GB18030编码向后对GBK编码保持兼容

,同时GBK也向后兼容GB2312编码)。 在记事本中输入“a刘”,然 ...
当你用Windows记事本保存文本文件时,默认会使用ANSI编码保存,如果文本包含中文的话,会用GB18030标准编码(GB18030编码向后对GBK编码保持兼容,同时

GBK也向后兼容GB2312编码)。



在记事本中输入“a刘”,然后保存,用二进制编辑器打开文本文件,结果会是:

61 C1 F5



可以看到,61是”a”的ASCII码:97。而C1 F5正是“刘”的GB18030(GBK)码。而整个文件两个字符,英文1个字节,中文两个字节,使用GB18030作为ANSI扩展

编码存储。当然也就没有字节顺序标记(BOM)。(关于BOM,可以参考这篇文章:.NET(C#) 中的字符编码(Encoding)和字节顺序标记(BOM))



问题就是.NET中读取文本方法(File类和StreamReader)默认是以UTF8编码来读取的,因此此类GB18030的文本文件直接用.NET打开(不指定编码的话)结果肯定

是乱码!



当然解决方案之一就是在打开文件的时候手动指定一个编码,比如GB18030,但是有没有想过用指定的GB18030去打开文件,如果遇到了Unicode文件,文件还会打

开成功吗?答案是仍然成功。原因是.NET在打开文件时默认会自动觉察BOM然后用根据BOM得到的编码去打开文件,如果没有BOM再用用户指定的编码区打开文件,

如果用户没有指定编码,则使用UTF8编码。



这个”自动觉察BOM“的参数可以在StreamReader中构造函数中设置,对应detectEncodingFromByteOrderMarks参数。

但是在File类的相应方法中无法设置。(比如:File.ReadAllText)。



比如下面代码,分别用:

•GB18030编码,自动觉察BOM 来读取GB18030文本
•GB18030编码,自动觉察BOM 来读取Unicode文本
•GB18030编码,不觉察BOM 来读取Unicode文本


static void Main()

{

var gb18030 = Encoding.GetEncoding("GB18030");

//用GB18030编码,自动觉察BOM 来读取GB18030文本

ReadFile("gbk.txt", gb18030, true);

//用G18030编码,自动觉察BOM 来读取Unicode文本

ReadFile("unicode.txt", gb18030, true);

//用G18030编码,不觉察BOM 来读取Unicode文本

ReadFile("unicode.txt", gb18030, false);

}



//通过StreamReader读取文本

static void ReadFile(string path, Encoding enc, bool detectEncodingFromByteOrderMarks)

{

StreamReader sr;

using (sr = new StreamReader(path, enc, detectEncodingFromByteOrderMarks))

{

Console.WriteLine(sr.ReadToEnd());

}

}





输出:

a刘

a刘

???

第三行是乱码。



看到上面,使用GB18030编码去打开Unicode文件也会成功的。因为“自动觉察BOM”参数为True,所以当发现该文件有BOM,.NET会通过BOM觉察到是Unicode文件

,然后用Unicode去打开文件的。当然如果没有BOM,会使用指定的编码参数去打开文件。对于GB18030编码的文本,显然是没有BOM的,所以必须指定GB18030编码

,否则.NET会用默认的UTF8编码去解析文件,是无法读取结果的。第三行出现乱码则是由于“自动觉察BOM”为False,.NET会直接用指定的GB18030编码去读取一

个有BOM的Unicode编码文本文件,显然无法成功的。





当然还可以自己判断BOM,如果没有BOM的话,指定一个缺省编码去打开文本。我在以前一篇文章中写到过(.NET(C#):从文件中觉察编码)。



代码:

static void Main()

{

PrintText("gbk.txt");

PrintText("unicode.txt");

}



//根据文件自动觉察编码并输出内容

static void PrintText(string path)

{

var enc = GetEncoding(path, Encoding.GetEncoding("GB18030"));

using (var sr = new StreamReader(path, enc))

{

Console.WriteLine(sr.ReadToEnd());

}

}



/// <summary>

/// 根据文件尝试返回字符编码

/// </summary>

/// <param name="file">文件路径</param>

/// <param name="defEnc">没有BOM返回的默认编码</param>

/// <returns>如果文件无法读取,返回null。否则,返回根据BOM判断的编码或者缺省编码(没有BOM)。</returns>

static Encoding GetEncoding(string file, Encoding defEnc)

{

using (var stream = File.OpenRead(file))

{

//判断流可读?

if (!stream.CanRead)

return null;

//字节数组存储BOM

var bom = new byte[4];

//实际读入的长度

int readc;



readc = stream.Read(bom, 0, 4);



if (readc >= 2)

{

if (readc >= 4)

{

//UTF32,Big-Endian

if (CheckBytes(bom, 4, 0x00, 0x00, 0xFE, 0xFF))

return new UTF32Encoding(true, true);

//UTF32,Little-Endian

if (CheckBytes(bom, 4, 0xFF, 0xFE, 0x00, 0x00))

return new UTF32Encoding(false, true);

}

//UTF8

if (readc >= 3 && CheckBytes(bom, 3, 0xEF, 0xBB, 0xBF))

return new UTF8Encoding(true);



//UTF16,Big-Endian

if (CheckBytes(bom, 2, 0xFE, 0xFF))

return new UnicodeEncoding(true, true);

//UTF16,Little-Endian

if (CheckBytes(bom, 2, 0xFF, 0xFE))

return new UnicodeEncoding(false, true);

}



return defEnc;

}

}



//辅助函数,判断字节中的值

static bool CheckBytes(byte[] bytes, int count, params int[] values)

{

for (int i = 0; i < count; i++)

if (bytes[i] != values[i])

return false;

return true;

}





上面代码,对于Unicode文本,GetEncoding方法会返回UTF16编码(更具体:还会根据BOM返回Big或者Little-Endian的UTF16编码),而没有BOM的文件则会返回

缺省值GB18030编码。