IO练习--按字节截取字符串

* 在Java中字符串“abcd”和字符串“ab你好”都是4个字符，
* 但是字节数不同，因为GBK中一个汉字占两个字节
* 定义一个方法用来按字节数截取字符串。
* 如：对于“ab你好”，取3个字节，“你”的字节只取了一半，无法正确显示，所以就把那个字节舍去
* 若取4个字节就是“ab你”，取5个字节还是“ab你”

 public class Test {

     public static void main(String[] args) throws UnsupportedEncodingException {

         String str=new String("ab你好w琲天");

         int len=str.getBytes("gbk").length;

         for(int x=1;x<=len;x++){

             System.out.println("GBK编码，截取"+x+"个字节数的结果是"+cutStringByBytes(str, x));

         }

         int len2=str.getBytes("utf-8").length;

         for(int x=1;x<=len2;x++){

             System.out.println("utf-8编码，截取"+x+"个字节数的结果是"+cutStringU8StringByBytes(str, x));

         }

     }

 //对于utf-8编码，一个汉字三个字节，用int表示都是负数

     public static String cutStringU8StringByBytes(String str, int len) throws UnsupportedEncodingException {

         byte[] buf=str.getBytes("utf-8");

         int count=0;

         for(int i=len-1;i>=0;i--){

             if(buf[i]<0)

                 count++;

             else

                 break;

         }

         if(count%3==0){

             return new String(buf,0,len,"utf-8");

         }

         else if(count%3==1)

             return new String(buf,0,len-1,"utf-8");

         else

             return new String(buf,0,len-2,"utf-8");

     }

 //对于GBK编码，汉字的编码大部分是两个负数（因为高位字节是1），其他是一个负数一个正数（比如“琲”）

     public static String cutStringByBytes(String str, int len) throws UnsupportedEncodingException {

         byte[] buf=str.getBytes("gbk");

         int count=0;

         for(int i=len-1;i>=0;i--){

             if(buf[i]<0)

                 count++;

             else

                 break;

         }

         if(count%2==0){

             return new String(buf,0,len,"gbk");

         }

         else

             return new String(buf,0,len-1,"gbk");

     }

 }

对于字符串“ab你好w琲天”的测试结果如下：

 GBK编码，截取1个字节数的结果是a

 GBK编码，截取2个字节数的结果是ab

 GBK编码，截取3个字节数的结果是ab

 GBK编码，截取4个字节数的结果是ab你

 GBK编码，截取5个字节数的结果是ab你

 GBK编码，截取6个字节数的结果是ab你好

 GBK编码，截取7个字节数的结果是ab你好w

 GBK编码，截取8个字节数的结果是ab你好w

 GBK编码，截取9个字节数的结果是ab你好w琲

 GBK编码，截取10个字节数的结果是ab你好w琲

 GBK编码，截取11个字节数的结果是ab你好w琲天

 utf-8编码，截取1个字节数的结果是a

 utf-8编码，截取2个字节数的结果是ab

 utf-8编码，截取3个字节数的结果是ab

 utf-8编码，截取4个字节数的结果是ab

 utf-8编码，截取5个字节数的结果是ab你

 utf-8编码，截取6个字节数的结果是ab你

 utf-8编码，截取7个字节数的结果是ab你

 utf-8编码，截取8个字节数的结果是ab你好

 utf-8编码，截取9个字节数的结果是ab你好w

 utf-8编码，截取10个字节数的结果是ab你好w

 utf-8编码，截取11个字节数的结果是ab你好w

 utf-8编码，截取12个字节数的结果是ab你好w琲

 utf-8编码，截取13个字节数的结果是ab你好w琲

 utf-8编码，截取14个字节数的结果是ab你好w琲

 utf-8编码，截取15个字节数的结果是ab你好w琲天

秒客网

IO练习--按字节截取字符串

相关文章