避免UTF-8的csv文件打开中文出现乱码

时间:2023-01-05 10:42:11
 

避免UTF-8的csv文件打开中文出现乱码



最近又遇到了需要提供csv下载功能的需求,不同的时需要用Java来实现,心想简单,就把以前PHP的版本重写了一遍,然后生成一份csv,用excel2007打开一看,里面的中文都是乱码,一下就懵了,以前好好的功能怎么突然不行了??以前也一直用2007的啊!于是开始了漫长的google之旅。

看来看去,说的都是输出utf-8格式的csv需要在文件头先输出BOM(BOM不懂的可以google了),即0xEF 0xBB 0xBF三个字节,这样更摸不着头脑了,明明是对的,偏偏不成功,直到发现一个帖子:http://*.com/a/9337150/1794493 ,里面提到2007需要装sp3才能识别BOM,shit!原来是这回事!里面同时又提到,用utf-16le编码输出貌似更通用,经测试确实如此,但是utf-16le的BOM是0xFF 0xFE,帖子里面说错了!下面是一个简单的测试结果:

excel版本 附加包 编码  测试结果
2007 sp3 utf-8 yes
2007 utf-8 no
2007 sp3 utf-16le yes
2007 utf-16le yes
2011 utf-8 no
2011 utf-16le yes

因为条件有限,只测试了这几个版本,可见utf-16le是更通用的编码格式。下面附上java代码,main方法中采用utf-16le编码,最后调用了utf8编码的方法,最后会输出两种编码格式的csv文件:

[java] view plain copy 避免UTF-8的csv文件打开中文出现乱码避免UTF-8的csv文件打开中文出现乱码
  1. import java.io.*;  
  2.   
  3. /** 
  4.  * Created by zhaozhi on 15-5-29. 
  5.  */  
  6. public class TestCSV {  
  7.   
  8.     public static String join(String[] strArr, String delim) {  
  9.         StringBuilder sb = new StringBuilder();  
  10.         for(String s : strArr) {  
  11.             sb.append(s);  
  12.             sb.append(delim);  
  13.         }  
  14.         String ret;  
  15.         if (strArr.length > 1) {  
  16.             ret = sb.substring(0, sb.length()-1);  
  17.         }  
  18.         else {  
  19.             ret = sb.toString();  
  20.         }  
  21.         return ret;  
  22.     }  
  23.     public static  void main (String[] args) throws  Exception {  
  24.         String[] heads = {"日期""产品""订单数"};  
  25.         String[][] rows = {  
  26.                 {"20150228""安卓""23"},  
  27.                 {"20150301""web""34"}  
  28.         };  
  29.         byte[] bom = {(byte)0xFF, (byte)0xFE};  
  30.         String fname = "d:\\utf-16le.csv";  
  31.         BufferedOutputStream bo = new BufferedOutputStream(new FileOutputStream(fname));  
  32.         bo.write(bom);  
  33.         bo.write(join(heads, "\t").getBytes("utf-16le"));  
  34.         bo.write("\n".getBytes("utf-16le"));  
  35.         for (String[] row : rows) {  
  36.             bo.write(join(row, "\t").getBytes("utf-16le"));  
  37.             bo.write("\n".getBytes("utf-16le"));  
  38.         }  
  39.         bo.close();  
  40.   
  41.         UTF8();  
  42.     }  
  43.   
  44.     public static void UTF8() throws IOException {  
  45.         String line = "中文,标题,23";  
  46.         OutputStream os = new FileOutputStream("d:/utf-8.csv");  
  47.         os.write(239);   // 0xEF  
  48.         os.write(187);   // 0xBB  
  49.         os.write(191);   // 0xBF  
  50.   
  51.         PrintWriter w = new PrintWriter(new OutputStreamWriter(os, "UTF-8"));  
  52.   
  53.         w.print(line);  
  54.         w.flush();  
  55.         w.close();  
  56.     }  
  57. }