使用Jsoup操作html字符串

时间:2022-08-14 20:23:40

需求:
当我们在前台传递一个html文本给后台,并入库保存,当前台需要回显时,需要把html文本传回去,并且给html中的某些标签添加、修改属性,或者添加其他节点,诸如此类的操作,都可以用Jsoup解决

1、导包

<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.3.3</version>
</dependency>

2、使用示例

, 添加后的效果为:"><div><p><img href="xxx"></p></div>
注:这是给相应的标签前后加其他标签包住
//字符串文本
String str = "<p>bbtset</p><img style=\"20px\" src=\"abc.com\"/><a>附件.txt</a>";

//使用Jsoup转化为doc
Document doc = Jsoup.parse(strr);

//根据标签名来查找节点,此处要查找的是<img>标签
Elements element = doc.getElementsByTag("img");
if(!element.isEmpty()){
for(int i = 0; i < element.size(); i++){
System.out.println("=========");
Element ele = element.get(i); //获取每一个img标签
String src = ele.attr("src"); //获取img标签的src值
System.out.println(ele); //img标签的整个内容
//在img标签前添加其他html
//(注:此处jsoup会自动添加闭合标签,如你添加<a>,jsoup会自动添加</a>闭合)
ele.before("<div class=\"my-gallery\" data-pswp-uid=\"1\"><figure><a href=" + src + ">" + ele + "</a></figure></div>");
//移除该标签
ele.remove();
}
}
上面的结果为:
<html>
<head></head>
<body><p>bbtset</p>
<div class="my-gallery" data-pswp-uid="1">
<figure>
<a href="abc.com"><img style="20px" src="abc.com" /></a>
</figure>
</div><a>附件.txt</a>
</body>
</html>

具体其他的API可以查看手册:http://www.open-open.com/jsoup/