操作PDF文件的关键技术点

时间:2024-02-21 14:45:38

一个PDF文档从大到小可以分成如下几个要素:文档、章节、小节、段落、表格、列表、

com.lowagie.text.Document表示PDF文档。必须为它创建一个PDF写入器,即com.lowagie.text.pdf.PdfWriter对象,写入器的作用是将Document对象与目标文件关联起来。调用

Document 的open方法便打开了与目标文件的连接;Document的add 方法用于为文档添加章节  。

2 com.lowagie.text.Chapter表示PDF文档中的章节。它的setTitle方法用于设置章节的标题;setNumberDepth方法用于设置小节的编号级别;add方法为小节添加内容,可以是段落、

表格列表、

3 com.lowagie.text.Paragraph表示PDF文档的段落。可以指定段落的对齐方式,字体等属性、

4  com.lowagie.text.Table表示PDF文档的表格。通过它的一系列set方法可以设置表格的样式,比如边框大小、颜色等;addCell方法用于为表格添加单元格,单元格是com.lowagie.text.Cell对象

5 com.lowagie.text.List表示PDF文档中的列表。com.lowagie.text.Listltem表示列表中的项,通过List的add 方法添加到列表中;

 

使用pdfbox类库读PDF文档的关键技术:

1 org.PDFBox.pdfparser.PDFParser 用于解析PDF文档。它的parse方法用于对PDF文件的输入流进行解析;getPDDocument方法用于获得解析后的PDF文档对象,是一个org.pdfbox.pdmodel.PDDocument对象。

2 org.pdfbox.util.PDF.TextStripper是分析PDF文档对象中广西的工具类,它的getText方法能够提取PDF文档对象中包含的文本。