分享一点PDF中获取表格的探索过程-camelot

时间:2024-03-03 20:40:26

实际测试情况:解析表格的能力比较差,它把三列的表格解析成了很多列。

安装

pip install pdfplumber

可运行代码

# 导入pdfplumber
import pdfplumber

# 读取pdf文件,保存为pdf实例
pdf =  pdfplumber.open("D:\\angus\\py\\困难pdf节选*奇正2022.pdf") 

# 访问第二页
first_page = pdf.pages[2]

# 自动读取表格信息,返回列表
table = first_page.extract_table()

print(table)

实际PDF中的表格

解析后的结果,可以看到都是错误的。因为它解析出来九列。