windows下使用python运行pdf2htmlex

时间:2024-04-03 07:16:11

1、下载

网址:http://soft.rubypdf.com/software/pdf2htmlex-windows-version

windows下使用python运行pdf2htmlex

我下载的第二个。

2、安装

解压,shift+鼠标右键在当前文件夹下运行cmd(powershell)

输入 .\pdf2htmlEX,得到下列窗口说明安装成功

(本来应该直接输入pdf2htmlEX就可以的不知道为什么没成功?)

windows下使用python运行pdf2htmlex

3、使用

在PDF所在文件夹的上级文件夹(PDF所在文件夹叫pdf)下打开编译器

import subprocess

filename = "2" #你的文档名
subprocess.call(r"F:\aboutpython\pdf2htmlEX-win32-0.14.6-with-poppler-data\pdf2htmlEX.exe pdf/"+filename+".pdf  --dest-dir  pdf/"+filename, shell=True)

#这个函数有四个参数,第一个是要运行的进程(pdf2htmlEX.exe),第二个是要处理的pdf,第三个是--dest-dir(不知道是什么),第四个是输出的文件路径

发现pdf文件夹下新增2文件夹,2文件夹下新增2.html

4、效果

windows下使用python运行pdf2htmlex

与原pdf一模一样

但是

windows下使用python运行pdf2htmlex

文字被拆的四分五裂,基本无法进行html解析

over

参考资料:https://blog.csdn.net/yuan882696yan/article/details/25185977