Jsoup学习笔记8:Jsoup 解析指定目录中的saz文件,生成一个名字相同的htm文件,将解析结果写入csv文件中

时间:2022-10-31 11:11:50

本篇笔记和前面的Jsoup学习笔记有连贯性,有些小细节不明白的可以查看前面几篇笔记,要实现的功能是:

1、解析指定目录中的saz文件,生成一个名字相同的htm文件 

2、解析生成的htm文件,提取其中table标签内的数据

3、将解析到的数据写入csv文件中,生成一个名字相同的csv文件

示例代码如下:

package com.daxiang.saztest;

/**
 * @Author: 大象Jepson
 * @Date: 2015-7-23
 * @Email: chenjinpeng0326@163.com
 * @Version: Version1.0
 * @CopyRight: 大象Jepson
 * @Description: 解析指定目录中的saz文件,生成一个名字相同的htm文件,
 * 				  解析生成的htm文件,提取其中table标签内的数据,
 * 				  将解析到的数据写入csv文件中,生成一个名字相同的csv文件
 */
import java.io.File;
import java.io.FileOutputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.util.zip.ZipEntry;
import java.util.zip.ZipFile;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

public class SazJsoupTest1 {
	private static ZipFile zipFile;

	public static void main(String[] args) throws Exception {
		// 调用SazTest方法
		SazTest();
		// 定义存放htm临时文件的路径
		String htmPath = "D:\\daxiang\\saztest\\21316.htm";
		// 定义存放生成csv文件的路径
		String csvPath = "D:\\daxiang\\saztest\\21316.csv";
		// 调用JaoupTest方法
		JsoupTest(htmPath, csvPath);
		
		System.out.println("saz文件解析完成!");  
	}

	 /** 
     * 解压saz文件的方法 
     */  
	public static void SazTest() throws Exception {

		File file = new File("d:" + File.separator + "daxiang" + File.separator
				+ "saztest" + File.separator + "21316.saz"); // 找到压缩文件

		// 解析完成后就此htm文件就没有用了,可以手动删除掉
		File outputFile = new File("D:\\daxiang\\saztest\\21316.htm");

		zipFile = new ZipFile(file);
		// 因为已经明确知道saz文件中有一个_index.htm文件,所以可以直接用getEntry()方法得到其压缩实体
		ZipEntry entry = zipFile.getEntry("_index.htm"); // 得到一个压缩实体
		OutputStream out = new FileOutputStream(outputFile); // 实例化输出流
		InputStream input = zipFile.getInputStream(entry); // 得到一个压缩实体的输入流
		int temp = 0;
		while ((temp = input.read()) != -1) {
			out.write(temp);
		}
		input.close(); // 关闭输入流
		out.close(); // 关闭输出流

	}

	/** 
     * 解析htm文档的方法 
     */  
	public static void JsoupTest(String htmPath, String csvPath)
			throws IOException {
		// 导入htm文档
		File input = new File(htmPath);
		Document doc = Jsoup.parse(input, "UTF-8");
		// 提取表头信息
		Elements heads = doc.getElementsByTag("table").select("thead");
		FileWriter fw = new FileWriter(csvPath);
		for (int m = 0; m < heads.size(); m++) {
			Elements head = heads.get(m).select("th");
			for (int n = 0; n < head.size(); n++) {
				// 经过观察,该htm文档table标签内共有23列数据,因为只需要第2至12列的数据,所以其他列排除掉不予提取
				if (n == 0) {
					continue;
				} else if (n < 22) {
					// text()方法和toString()方法的效果不同
					// String h = head.get(n).toString() + "\r\n";
					String h = head.get(n).text() + ",";
					fw.write(h);
					System.out.print(h);
				} else if (n == 22) {
					String h = head.get(n).text() + "\r\n";
					fw.write(h);
					System.out.print(h);
				} else {
					break;
				}
			}
		}
		// 提取表格信息
		Elements trs = doc.getElementsByTag("table").select("tr");
		for (int i = 0; i < trs.size(); i++) {
			Elements tds = trs.get(i).select("td");
			for (int j = 0; j < tds.size(); j++) {
				// 把空格无内容的部分去除掉
				// if(!"".equals(tds.get(j).text())){
				// String str = tds.get(j).text() + "\r\n";
				// System.out.print(str);
				// fw.write(str);
				// }
				if (j == 0) {
					continue;
				} else if (j < 22) {
					// 加双引号的作用很大,有些数据是包含逗号的,不处理一下,本来在一个表格里的数据
					// 会因为逗号的存在分开到好几列表格中
					String str1 = "\"" + tds.get(j).text() + "\"";
					String str2 = str1 + ",";
					// System.out.print(str2);
					fw.write(str2);
				} else if (j == 22) {
					String str3 = tds.get(j).text() + "\r\n";
					// System.out.print(str3);
					fw.write(str3);
				} else {
					break;
				}
			}
		}
		fw.flush();
		fw.close();
	}
}
附解析完成后生成的csv文件截图,效果如下:

Jsoup学习笔记8:Jsoup 解析指定目录中的saz文件,生成一个名字相同的htm文件,将解析结果写入csv文件中