pdf2xml:使用pdfMiner的pdf2xml转换器

时间:2024-06-13 02:29:36
【文件属性】:

文件名称:pdf2xml:使用pdfMiner的pdf2xml转换器

文件大小:708KB

文件格式:ZIP

更新时间:2024-06-13 02:29:36

python xml pdf-converter pdf2xml Python

该脚本将PDF格式的期刊文章转换为XML文件。 它确定所有页面上最常用的字体大小,并认为它是主要文本。 然后脚本使所有文本块的凸包,其中主要文本捕获中间的所有标头,并将它们放入“ <body>”标记中。


【文件预览】:
pdf2xml-master
----examples()
--------GIM1114_Feature Biljecki_2_0_1.jpeg(32KB)
--------GIM1114_Feature Biljecki_2_1_1.jpeg(38KB)
--------GIM1114_Feature Biljecki_1_1_0.jpeg(35KB)
--------GIM1114_Feature Biljecki.xml(7KB)
--------GIM1114_Feature Biljecki_1_0_0.jpeg(16KB)
--------GIM1114_Feature Biljecki.pdf(655KB)
----README.md(307B)
----main.py(21KB)

网友评论