Html解析之Jsoup的使用

时间:2021-12-14 08:56:54

1、什么是Jsoup?

简单说就是解析网页的东西。

Jsoup官方网站:Jsoup

2、解析和遍历一个html文档

详见:解析和遍历一个html文档

3、Demo

1、待解析的url=’http://www.cailianpress.com/
Html解析之Jsoup的使用
查看网页源码我们看到,这里是网页部分源码
Html解析之Jsoup的使用
下面就解析出每条内容出来
2、然后我们的代码是这样的

import java.io.IOException;

import org.apache.commons.lang.StringUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Test {

public static void main(String[] args) {
try {
Document doc = Jsoup
.connect("http://www.cailianpress.com/")
.userAgent(
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31")
.get();
//System.out.println(doc.html());
Elements listDiv = doc.getElementsByAttributeValue("class", "content");
//Elements listDiv1 = doc.getElementsByAttributeValue("class", "content recommend ");
//for (Element element : listDiv1) {
//listDiv.add(element);
//}
Elements listDiv2 = doc.getElementsByAttributeValue("class", "content recommend bold");
for (Element element : listDiv2) {
listDiv.add(element);
}
// System.out.println(listDiv.size());
for (Element element : listDiv) {
if (StringUtils.isNotEmpty(element.html())) {
System.out.println(element.html());
}
}
} catch (IOException e) {
e.printStackTrace();
}
}
}

运行就得到:
Html解析之Jsoup的使用