String.split()方法你可能不知道的一面

时间:2022-01-21 19:52:46

一、问题

java中String的split()是我们经常使用的方法,用来按照特定字符分割字符串,那么我们看以下一段代码:

    public void splitTest() {
String str = "aaa|bbb|ccc";
String[] array = str.split("|");
System.out.println(Arrays.toString(array));
}

是不是感觉很简单,就是吧str按照"|"分割,结果就是[aaa,bbb,ccc]嘛。如果你这么想,那么以后在用这个方法时你可能会犯下大错,把程序跑起来,你会惊讶的发现程序输入如下结果:

[, a, a, a, |, b, b, b, |, c, c, c]

为什么会出现这种情况呢?我们再来运行一下str.split("");就会发现结果和之前的结果一样,也就是说我们使用"|"分割的时候其实split是按照空字符分割的。

二、探究

为了找到原因,我们在来使用其他几种字符测试一下,结果如下:

0:[aaa, bbb, ccc]
$:[aaa$bbb$ccc]
,:[aaa, bbb, ccc]
*:异常java.util.regex.PatternSyntaxException: Dangling meta character '*' near index 0
^:[aaa^bbb^ccc]

我们会发现对于数字,","结果是正确的,而对于特殊字符,结果都不正确,而且如果经验丰富,你可能已经发现,这些特殊字符都是正则表达式中的匹配符,而那个异常也很明确的说明了这一点。

因此,我们可以猜测在split内部使用了正则表达式来匹配并分割字符串。那么现在又有一个疑问:我们知道一般情况下String涉及的字符串处理多数使用indexOf()(可能是考虑效率问题吧),那么这里为什么使用正则呢?我们还是直接看看源码吧:

public String[] split(String regex, int limit) {
char ch = 0;
if (((regex.value.length == 1 &&
".$|()[{^?*+\\".indexOf(ch = regex.charAt(0)) == -1) ||
(regex.length() == 2 &&
regex.charAt(0) == '\\' &&
(((ch = regex.charAt(1))-'0')|('9'-ch)) < 0 &&
((ch-'a')|('z'-ch)) < 0 &&
((ch-'A')|('Z'-ch)) < 0)) &&
(ch < Character.MIN_HIGH_SURROGATE ||
ch > Character.MAX_LOW_SURROGATE))
{
int off = 0;
int next = 0;
boolean limited = limit > 0;
ArrayList<String> list = new ArrayList<>();
while ((next = indexOf(ch, off)) != -1) {
if (!limited || list.size() < limit - 1) {
list.add(substring(off, next));
off = next + 1;
} else { // last one
//assert (list.size() == limit - 1);
list.add(substring(off, value.length));
off = value.length;
break;
}
}
// If no match was found, return this
if (off == 0)
return new String[]{this}; // Add remaining segment
if (!limited || list.size() < limit)
list.add(substring(off, value.length)); // Construct result
int resultSize = list.size();
if (limit == 0)
while (resultSize > 0 && list.get(resultSize - 1).length() == 0)
resultSize--;
String[] result = new String[resultSize];
return list.subList(0, resultSize).toArray(result);
}
return Pattern.compile(regex).split(this, limit);
}

可以看到方法内有一个if,如果条件为true,那么就使用indexOf()判断后substring()截取,如果为false,则使用正则处理。那么我们就来分析下这个if的条件:

//第一步部分:当regex的长度为1且不是“.$|()[{^?*+\\”中的时,为真
(regex.value.length == 1 &&".$|()[{^?*+\\".indexOf(ch = regex.charAt(0)) == -1) //第二部分:当长度为2时且第一个字符为“\”转义字符,第二个字符不是字符0-9 a-z A-Z 以及utf-16之间的字符
(regex.length() == 2 && regex.charAt(0) == '\\' && (((
ch = regex.charAt(1))-'0')|('9'-ch)) < 0 &&
((ch-'a')|('z'-ch)) < 0 &&
((ch-'A')|('Z'-ch)) < 0)) &&
(ch < Character.MIN_HIGH_SURROGATE ||
ch > Character.MAX_LOW_SURROGATE)

从if可以看出如果regex内容为一个非正则匹配符或者是转以后的特殊字符时,采用indexOf()+substring()处理,否则使用正则表达式。
    那么为什么这么做呢,直接使用第一种方法不就行了?其实我们可以考虑一种复杂的情况:

 aaax111xbbbx222xcccx333xddd

如果我想分割出这样的结果 [aaa, bbb, ccc, ddd] 应该则么做呢?按照第一种方法,实现起来很麻烦,需要一大堆判断,反而不如正则方便,而String中的split()方法正是出于这样的考虑实现的,不信你用split("x.*?x")试试。

三、启示

这次这件事虽小,但是却让我收获不少。

  • 1、使用一个不了解的方法前,一定要看一眼提示,split方法说明里虽然没有明确的提示上述问题,但是多个地方都提到了正则,连参数名字都是regex,作为一个经验丰富的程序员,应该想到这一点。
  • 2、对于一些小的功能点(往往我们还胸有成竹)一定要写个Test测一下,其实把代码贴过去跑一下费不了多少劲,但是当他淹没在成百上千行的代码中时,想要在发现问题就很费劲了,特别是你不调试根本想不到这点会错。
  • 3、我们在多数项目中都要建个util工具包,封装各种辅助的操作类,然而这些类的功能往往只是满足当时的需求,之后用到类似但有变动的功能时往往习惯单独实现一个,而不是实现一个完善的覆盖原来的,从设计的角度会造成接口不一致:明明同样的需求、同样的参数,我却还要看看他的内部实现才能选择用哪个。对于这些工具类,我们不一定要非常完美,但是应该用心做到尽量完善,这也方便复用。

扯这么多,也不知道说了些什么,OVER,睡觉......

String.split()方法你可能不知道的一面的更多相关文章

  1. C&num; String&period;split&lpar;&rpar;用法小结。String&period;Split 方法 &lpar;String&lbrack;&rsqb;&comma; StringSplitOptions&rpar;

    split()首先是一个分隔符,它会把字符串按照split(' 字符')里的字符把字符串分割成数组,然后存给一个数组对象. 输出数组对象经常使用foreach或者for循环. 第一种方法 string ...

  2. &lbrack;Java&rsqb; String&period;Split 方法的6个重载函数

    String.Split 方法有6个重载函数: 程序代码 1) public string[] Split(params char[] separator) 2) public string[] Sp ...

  3. java String&period;split方法是用注意点&lpar;转&rpar;

    转自:http://www.blogjava.net/fanyingjie/archive/2010/08/05/328059.html 在java.lang包中有String.split()方法,返 ...

  4. String split方法与Guava Splitter用法区别

    String split方法与Guava Splitter用法区别 今天同事写了一段使用String split方法的代码,如下所示,同事期望得到的是字符"1",但是没想到却得到空 ...

  5. as3 string split方法一些注意

    split () 方法 AS3 function split(delimiter:*, limit:Number = 0x7fffffff):Array 如果指定 limit 参数,返回的数组中具有的 ...

  6. java学习笔记之String&period;Split方法

    hello 大家好,好久不见,今天 我们要讨论的是java的split方法,或许你很早就知道了,但你真的知道吗? 我们来看看吧. 首先我们来看看我们最常用的split()方法也就是单个参数的方法 pu ...

  7. String&period;split&lpar;&rpar;方法

    如果用“(”作为分隔的话,必须是如下写法,String.split("\\("),这样才能正确的分隔开,不能用String.split("("); 如果用“)” ...

  8. java中String对象的split方法

    在java.lang包中有String.split()方法,返回是一个String[]数组,今天碰到一个自己没注意的问题: 1.特殊分隔符 String str1 = "123|456|78 ...

  9. 分享一个 Java String split 快速分割的方法

    java中string.split() 方法比较强大,但是split()方法采用正则表达式,速度相对会慢一点, 其实大多数场景下并不需要使用正则表达式,下面分享一个不使用正则表达式分隔字符串的方法. ...

随机推荐

  1. Objective-C学习笔记-第三天&lpar;1&rpar;

    今天开始用oc写iOS程序,遇到的问题有 1.在不同的类使用类的方法或者访问类的属性的时候(公开的方法或者属性),方法或者属性必须在类头文件中声明. 2.对象类型的声明以及定义需要用*,表明这个是一个 ...

  2. AngularJS快速入门指南10:DOM节点

    AngularJS通过指令将application数据绑定到HTML DOM元素的属性上. ng-disabled指令 ng-disabled指令将AngularJS application数据绑定到 ...

  3. ActionLink&lpar;&rpar;与jquery更好地结合建造MVC网页:

    众所周知,微软的MVC框架提供了一系列Helper以用于创建Ajax的网页. 但是,类似于Ajax.ActionLink()的方法创建的Ajax缺乏足够的灵活性,例如: 页面上有很多选项,我们需要根据 ...

  4. python&lowbar;中文乱码问题

    1. 编码和解码的概念:    编码是将源对象内容按照一种标准转换为一种标准格式内容.    解码是和编码对应的,它使用和编码相同的标准将编码内容还原为最初的对象内容. 2. python中的编码和解 ...

  5. 您需要来自administrators的权限才能对此文件进行更改

    今天我重装了系统,以前D盘里的一个文件夹想删除,可以一直没法删除,原先它提示"您需要来自 S-1-5-21-602162358-1284227242-682003330-500 的权限才能对 ...

  6. Java解析JSON文件的方法(一)

    一.首先需要在Eclipse工程中导入相关的jar包,jar包参见链接:http://yunpan.alibaba-inc.com/share/link/NdA5b6IFK 二.提供一份待解析的jso ...

  7. FPGA学习笔记(一)——初识FPGA

    ###### [该随笔部分内容转载自小梅哥]       ######### FPGA(Field-Programmable Gate Array,现场可编程门阵列),正如其名,FPGA内部有大量的可 ...

  8. &period;net工具类 分享一个简单的随机分红包的实现方式

    废话不多说,直接上代码 /// <summary> /// 分红包 /// </summary> public class RandomMoney { public Rando ...

  9. Lodop的TABLE中format格式化的使用

    LODOP中的ADD_PRINT_TABLE支持很多函数和计算方法,可以用tdata对table表格里额数据进行计算,用format对结果进行格式化.这个format只能和tdata搭配使用,不能单独 ...

  10. Van Emde Boas Tree

    van Emde Boas trees 支持所有优先级优先级队列的操作,并且巧妙的是它对于SEARCH, INSERT,DELETE,MINIMUM,MAXMUN,SUCCESSOR,和PREDECE ...