ocrpdf:内存中带有Tesseract的OCR PDF（带有Python绑定）下载

【文件属性】：

文件名称：ocrpdf:内存中带有Tesseract的OCR PDF（带有Python绑定）

文件大小：8KB

文件格式：ZIP

更新时间：2024-06-06 18:17:08

ocrpdf 使用Tesseract（和Python）对PDF文件执行OCR。该项目的目标是能够读取PDF文件并对其进行OCR。在此任务中，我们需要提取PDF的已知区域并进行解析，以查看其中是否包含某些已知文本。其他替代方法效率不高，因为它们最终会写出文件并回读。我们最终使用muPDF读取了文档，切出必要的数据块，将其转换为Leptonica可读的图像，然后将其发送给Tessearact。安装阅读build.sh，将其修改为所需的语言或环境，然后运行。我们正在从源代码构建muPDF，以将其链接到Python绑定。当前包含的build.sh是针对Debian风格Linux（apt）设置的。随意摆弄C可执行文件，进行编译，并使用类似于以下内容的东西： gcc -g -o build/release/example -Iinclude ../conv.c build

立即下载

【文件预览】：
ocrpdf-master
----build.sh(607B)
----conv.h(782B)
----conv.c(10KB)
----ocrpdf.c(3KB)
----setup.py(1KB)
----README.md(2KB)

秒客网

ocrpdf:内存中带有Tesseract的OCR PDF（带有Python绑定）

网友评论

相关文章