jsoup解析网页出现转义符问题

时间:2021-01-14 20:21:59

网友给出了hack方案

Document doc = Jsoup.connect(“http://sports.163.com/13/0830/22/97IFSI5I00051CD5.html“).get();
//清空jsoup的转义表,会使jsoup失去转义能力
Entities.EscapeMode.base.getMap().clear();
Elements elements = doc.select(“textarea[id^=photoList]”);
for(Element e:elements){
System.out.println(e.html());
}

<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.11.3</version>
</dependency>

1.11.3版本没有getMap方法,所以行不通,不清楚1.11.3版本是否有新方法可以屏蔽jsoup转义。
1.8.3版本有getMap.clear方法,问题解决。