Xsoup 是一款基于Jsoup 开发的,使用XPath抽取Html元素的工具。它被用于作者的爬虫框架 WebMagic 中,进行XPath 解析和抽取。
此次更新主要增加了一些XPath语法的支持。
-
增加contains支持 #2:
1//div[contains(@id,'test')]
-
增加筛选条件的逻辑运算支持(and/or) #4:
1234//div[@id='test' or @class='test']
//div[@id='test' and @class='test']
//div[@id='test' and @class='test' or @id='test1']
//div[@id='test' and (@class='test' or @id='test1')]
-
增加整个XPath的或支持 #6:
1//div[@id='test']/text() | //div[@class='test']/div/text()