Java_util_02_Java判断字符串是中文还是英文

做微信开发，使用百度翻译API时，需要指定译文的语种。这就需要我们判断待翻译内容是中文还是英文，若是中文，则翻译成英文，若是英文则翻译成中文。

方法一：字符与字节的长度

依据：一个中文占两个字节，一个英文占一个字节。故若是字符长度与字节长度相等，则判断为英文。否则为中文。

示例：

  public static boolean isEnglish(String p) {

   byte[] bytes = p.getBytes();

   int i = bytes.length;//i为字节长度

   int j = p.length();//j为字符长度

   if(i==j){

   return true;

   }else{

   return false;

   }

  }

方法二：正则表达式

依据：中文Unicode编码表

字符集	字数	Unicode 编码
基本汉字	20902字	4E00-9FA5
基本汉字补充	38字	9FA6-9FCB
扩展A	6582字	3400-4DB5
扩展B	42711字	20000-2A6D6
扩展C	4149字	2A700-2B734
扩展D	222字	2B740-2B81D
康熙部首	214字	2F00-2FD5
部首扩展	115字	2E80-2EF3
兼容汉	477字	F900-FAD9
兼容扩展	542字	2F800-2FA1D
PUA(GBK)部件	81字	E815-E86F
部件扩展	452字	E400-E5E8
PUA增补	207字	E600-E6CF
汉字笔画	36字	31C0-31E3
汉字结构	12字	2FF0-2FFB
汉语注音	22字	3105-3120
注音扩展	22字	31A0-31BA
〇	1字	3007

 package org.liufeng.course.util;

 import java.util.regex.Matcher;

 import java.util.regex.Pattern;

 /**

  * Description 提供判断字符串是中文或者是英文的一种思路

  *

  */

 public class ChineseAndEnglish_Util {

     public static void main(String[] args) {

         String str = "我爱你，！？（）：；“”、。";

         char[] charArray = str.toCharArray();

         for (int i = 0; i < charArray.length; i++) {

             isChinese(charArray[i]);

         }

         String chinese = "中国god damn";

         System.out.println(isContainChinese(chinese));

         String english = "dfafdabac";

         System.out.println(isEnglish(english));

     }

     /**

      * 1.判断字节是否是中文

      *

      * CJK的意思是“Chinese，Japanese，Korea”的简写 ，实际上就是指中日韩三国的象形文字的Unicode编码

      * Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS             ：4E00-9FBF：CJK 统一表意符号

      * Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS       ：F900-FAFF：CJK 兼容象形文字

      * Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A ：3400-4DBF：CJK 统一表意符号扩展 A

      * Character.UnicodeBlock.GENERAL_PUNCTUATION                ：2000-206F：常用标点

      * Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION        ：3000-303F：CJK 符号和标点

      * Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS      ：FF00-FFEF：半角及全角形式

      *

      */

     public static boolean isChinese(char c) {

         Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);

         if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS

                 || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS

                 || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A

                 || ub == Character.UnicodeBlock.GENERAL_PUNCTUATION

                 || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION

                 || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS) {

             return true;

         }

         return false;

     }

     //2.检测是否包含英文

     public static boolean isEnglish(String charaString) {

         return charaString.matches("^[a-zA-Z]*");

     }

     //3.检测是否包含中文

     public static boolean isContainChinese(String str) {

         String regEx = "[\\u4E00-\\u9FA5]+";

         Pattern p = Pattern.compile(regEx);

         Matcher m = p.matcher(str);

         if (m.find()) {

             return true;

         } else {

             return false;

         }

     }

 }

秒客网

Java_util_02_Java判断字符串是中文还是英文

方法一：字符与字节的长度

方法二：正则表达式

相关文章