一，为什么要用xpath技术

问题：当使用dom4j查询比较深的层次结构的节点（标签，属性，文本），比较麻烦！！！

二，xpath的规则

2.1，/根元素的案例

/AAA
选择根元素AAA
<AAA> <BBB/> <CCC/> <BBB/> <BBB/> <DDD> <BBB/> </DDD> <CCC/> </AAA>

/AAA/CCC
选择AAA的所有CCC子元素
<AAA> <BBB/> <CCC/> <BBB/> <BBB/> <DDD> <BBB/> </DDD> <CCC/> </AAA>

/AAA/DDD/BBB
选择AAA的子元素DDD的所有子元素
<AAA> <BBB/> <CCC/> <BBB/> <BBB/> <DDD> <BBB/> </DDD> <CCC/> </AAA>

2.2，以双斜线 // 开头则表示选择文档中所有满足双斜线//之后规则的元素(无论层级关系)

//BBB
选择所有BBB元素
<AAA> <BBB/> <CCC/> <BBB/> <DDD> <BBB/> </DDD> <CCC> <DDD> <BBB/> <BBB/> </DDD> </CCC> </AAA>

//DDD/BBB
选择所有父元素是DDD的BBB元素
<AAA> <BBB/> <CCC/> <BBB/> <DDD> <BBB/> </DDD> <CCC> <DDD> <BBB/> <BBB/> </DDD> </CCC> </AAA>

2.3，星号 * 表示选择所有由星号之前的路径所定位的元素

/AAA/CCC/DDD/*
选择所有路径依附于/AAA/CCC/DDD的元素
<AAA> <XXX> <DDD> <BBB/> <BBB/> <EEE/> <FFF/> </DDD> </XXX> <CCC> <DDD> <BBB/> <BBB/> <EEE/> <FFF/> </DDD> </CCC> <CCC> <BBB> <BBB> <BBB/> </BBB> </BBB> </CCC> </AAA>

/AAA/CCC/DDD/*

选择所有路径依附于/AAA/CCC/DDD的元素

///*/BBB
选择所有的有3个祖先元素的BBB元素
<AAA> <XXX> <DDD> <BBB/> <BBB/> <EEE/> <FFF/> </DDD> </XXX> <CCC> <DDD> <BBB/> <BBB/> <EEE/> <FFF/> </DDD> </CCC> <CCC> <BBB> <BBB> <BBB/> </BBB> </BBB> </CCC> </AAA>

/*/*/*/BBB

选择所有的有3个祖先元素的BBB元素

//*
选择所有元素
<AAA> <XXX> <DDD> <BBB/> <BBB/> <EEE/> <FFF/> </DDD> </XXX> <CCC> <DDD> <BBB/> <BBB/> <EEE/> <FFF/> </DDD> </CCC> <CCC> <BBB> <BBB> <BBB/> </BBB> </BBB> </CCC> </AAA>

//*

选择所有元素

2.4，方块号里的表达式可以进一步的指定元素, 其中数字表示元素在选择集里的位置, 而last()函数则表示选择集中的最后一个元素.

/AAA/BBB[1]
选择AAA的第一个BBB子元素
<AAA> <BBB/> <BBB/> <BBB/> <BBB/> </AAA>

/AAA/BBB[last()]
选择AAA的最后一个BBB子元素
<AAA> <BBB/> <BBB/> <BBB/> <BBB/> </AAA>

2.5，属性通过前缀 @ 来指定

//@id
选择所有的id属性
<AAA> <BBB id = "b1"/> <BBB id = "b2"/> <BBB name = "bbb"/> <BBB/> </AAA>

//BBB[@id]
选择有id属性的BBB元素
<AAA> <BBB id = "b1"/> <BBB id = "b2"/> <BBB name = "bbb"/> <BBB/> </AAA>

//BBB[@name]
选择有name属性的BBB元素
<AAA> <BBB id = "b1"/> <BBB id = "b2"/> <BBB name = "bbb"/> <BBB/> </AAA>

//BBB[@*]
选择有任意属性的BBB元素
<AAA> <BBB id = "b1"/> <BBB id = "b2"/> <BBB name = "bbb"/> <BBB/> </AAA>

//BBB[not(@*)]
选择没有属性的BBB元素
<AAA> <BBB id = "b1"/> <BBB id = "b2"/> <BBB name = "bbb"/> <BBB/> </AAA>

2.6，属性的值可以被用来作为选择的准则, normalize-space函数删除了前部和尾部的空格, 并且把连续的空格串替换为一个单一的空格

//BBB[@id='b1']
选择含有属性id且其值为'b1'的BBB元素
<AAA> <BBB id = "b1"/> <BBB name = " bbb "/> <BBB name = "bbb"/> </AAA>

//BBB[@name='bbb']
选择含有属性name且其值为'bbb'的BBB元素
<AAA> <BBB id = "b1"/> <BBB name = " bbb "/> <BBB name = "bbb"/> </AAA>

//BBB[normalize-space(@name)='bbb']
选择含有属性name且其值(在用normalize-space函数去掉前后空格后)为'bbb'的BBB元素
<AAA> <BBB id = "b1"/> <BBB name = " bbb "/> <BBB name = "bbb"/> </AAA>

2.7，总结

还有其它的很多的语法，请详见XPathTutorial这个api

下面几个是常见的符号

 /      绝对路径      表示从xml的根位置开始或子元素（一个层次结构）
                 //     相对路径       表示不分任何层次结构的选择元素。
                 *      通配符         表示匹配所有元素
                 []      条件           表示选择什么条件下的元素
                 @     属性            表示选择属性节点
                 and     关系          表示条件的与关系（等价于&&）
                 text()    文本           表示选择文本内容

三，案例

3.1，删除id值为2的学生标签

     /**
          * 需求: 删除id值为2的学生标签
          */
         Document doc = new SAXReader().read(new File("e:/student.xml"));

         //1.查询id为2的学生标签
         //使用xpath技术
         Element stuElem = (Element)doc.selectSingleNode("//Student[@id='2']");

         //2.删除标签
         stuElem.detach();

         //3.写出xml文件
         FileOutputStream out = new FileOutputStream("e:/student.xml");
         OutputFormat format = OutputFormat.createPrettyPrint();
         format.setEncoding("utf-8");
         XMLWriter writer = new XMLWriter(out,format);
         writer.write(doc);
         writer.close();

3.2，常用符号的应用

         Document doc = new SAXReader().read(new File("./src/contact.xml"));

         String xpath = "";

         /**
          * 1.      /      绝对路径      表示从xml的根位置开始或子元素（一个层次结构）
          */
         xpath = "/contactList";
         xpath = "/contactList/contact";

         /**
          * 2. //     相对路径       表示不分任何层次结构的选择元素。
          */
         xpath = "//contact/name";
         xpath = "//name";

         /**
          * 3. *      通配符         表示匹配所有元素
          */
         xpath = "/contactList/*"; //根标签contactList下的所有子标签
         xpath = "/contactList//*";//根标签contactList下的所有标签（不分层次结构）

         /**
          * 4. []      条件           表示选择什么条件下的元素
          */
         //带有id属性的contact标签
         xpath = "//contact[@id]";
         //第二个的contact标签
         xpath = "//contact[2]";
         //选择最后一个contact标签
         xpath = "//contact[last()]";

         /**
          * 5. @     属性            表示选择属性节点
          */
         xpath = "//@id"; //选择id属性节点对象，返回的是Attribute对象
         xpath = "//contact[not(@id)]";//选择不包含id属性的contact标签节点
         xpath = "//contact[@id='002']";//选择id属性值为002的contact标签
         xpath = "//contact[@id='001' and @name='eric']";//选择id属性值为001，且name属性为eric的contact标签

         /**
          *6.  text()   表示选择文本内容
          */
         //选择name标签下的文本内容，返回Text对象
         xpath = "//name/text()";
         xpath = "//contact/name[text()='张三']";//选择姓名为张三的name标签

         List<Node> list = doc.selectNodes(xpath);
         for (Node node : list) {
             System.out.println(node);
         }
     }

3.3，按照规定格式输出内容

 <html>
     <head>
         <title>传智播客1月18号班通讯录</title>
         <meta http-equiv="content-type" content="text/html; charset=UTF-8" />
     </head>
     <body>
         <center><h1>12月16号就业班通讯录</h1></center>
         <table border="1" align="center" id="contactForm">
             <thead>
                 <tr><th>编号</th><th>姓名</th><th>性别</th><th>年龄</th><th>地址</th><th>电话</th></tr>
             </thead>
             <tbody>
                 <tr>
                 <td>001</td>
                 <td>张三</td>
                 <td>男</td>
                 <td>18</td>
                 <td>广州市天河区</td>
                 <td>134000000000</td>
                 </tr>
                 <tr>
                 <td>002</td>
                 <td>李四</td>
                 <td>女</td>
                 <td>20</td>
                 <td>广州市越秀区</td>
                 <td>13888888888</td>
                 </tr>
                 <tr>
                 <td>002</td>
                 <td>郭靖</td>
                 <td>男</td>
                 <td>30</td>
                 <td>广州市番禺区</td>
                 <td>1342214321</td>
                 </tr>
             </tbody>
         </table>
     </body>
 </html>

 public static void main(String[] args) throws Exception{
         Document doc = new SAXReader().read(new File("./src/personList.html"));
         //System.out.println(doc);

         //读取title标签
         Element titleElem = (Element)doc.selectSingleNode("//title");
         String title = titleElem.getText();
         System.out.println(title);

         /**
          * 练习：读取联系人的所有信息
          * 按照以下格式输出：
          *          编号:001 姓名:张三 性别:男 年龄:18 地址：xxxx 电话： xxxx
          *       编号:002 姓名:李四 性别:女 年龄:20 地址：xxxx 电话： xxxx
          *       ......
          */
         //1.读取出所有tbody中的tr标签
         List<Element> list = (List<Element>)doc.selectNodes("//tbody/tr");
         //2.遍历
         for (Element elem : list) {
             //编号
             //String id = ((Element)elem.elements().get(0)).getText();
             String id = elem.selectSingleNode("td[1]").getText();
             //姓名
             String name = ((Element)elem.elements().get(1)).getText();
             //性别
             String gender = ((Element)elem.elements().get(2)).getText();
             //年龄
             String age = ((Element)elem.elements().get(3)).getText();
             //地址
             String address = ((Element)elem.elements().get(4)).getText();
             //电话
             String phone = ((Element)elem.elements().get(5)).getText();

             System.out.println("编号："+id+"\t姓名："+name+"\t性别："+
                                 gender+"\t年龄："+
                                 age+"\t地址："+address+
                                 "\t电话："+phone);
         }
     }

 传智播客1月18号班通讯录
 编号：001    姓名：张三    性别：男    年龄：18    地址：广州市天河区    电话：134000000000
 编号：002    姓名：李四    性别：女    年龄：20    地址：广州市越秀区    电话：13888888888
 编号：002    姓名：郭靖    性别：男    年龄：30    地址：广州市番禺区    电话：1342214321

补充

XPath 运算符

下面列出了可用在 XPath 表达式中的运算符：

运算符	描述	实例	返回值
\|	计算两个节点集	//book \| //cd	返回所有拥有 book 和 cd 元素的节点集
+	加法	6 + 4	10
-	减法	6 - 4	2
*	乘法	6 * 4	24
div	除法	8 div 4	2
=	等于	price=9.80	如果 price 是 9.80，则返回 true。如果 price 是 9.90，则返回 false。
!=	不等于	price!=9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.80，则返回 false。
<	小于	price<9.80	如果 price 是 9.00，则返回 true。如果 price 是 9.90，则返回 false。
<=	小于或等于	price<=9.80	如果 price 是 9.00，则返回 true。如果 price 是 9.90，则返回 false。
>	大于	price>9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.80，则返回 false。
>=	大于或等于	price>=9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.70，则返回 false。
or	或	price=9.80 or price=9.70	如果 price 是 9.80，则返回 true。如果 price 是 9.50，则返回 false。
and	与	price>9.00 and price<9.90	如果 price 是 9.80，则返回 true。如果 price 是 8.50，则返回 false。
mod	计算除法的余数	5 mod 2	1

秒客网

xml的xPath解析规则

一，为什么要用xpath技术

二，xpath的规则

2.1，/根元素的案例

2.2，以双斜线 // 开头则表示选择文档中所有满足双斜线//之后规则的元素(无论层级关系)

2.3，星号 * 表示选择所有由星号之前的路径所定位的元素

2.4，方块号里的表达式可以进一步的指定元素, 其中数字表示元素在选择集里的位置, 而last()函数则表示选择集中的最后一个元素.

2.5，属性通过前缀 @ 来指定

2.6，属性的值可以被用来作为选择的准则, normalize-space函数删除了前部和尾部的空格, 并且把连续的空格串替换为一个单一的空格

2.7，总结

三，案例

3.1，删除id值为2的学生标签

3.2，常用符号的应用

3.3，按照规定格式输出内容

补充

XPath 运算符

相关文章