ocrpdf:内存中带有Tesseract的OCR PDF(带有Python绑定)

时间:2021-05-18 00:30:28
【文件属性】:
文件名称:ocrpdf:内存中带有Tesseract的OCR PDF(带有Python绑定)
文件大小:8KB
文件格式:ZIP
更新时间:2021-05-18 00:30:28
C ocrpdf 使用Tesseract(和Python)对PDF文件执行OCR。 该项目的目标是能够读取PDF文件并对其进行OCR。 在此任务中,我们需要提取PDF的已知区域并进行解析,以查看其中是否包含某些已知文本。 其他替代方法效率不高,因为它们最终会写出文件并回读。 我们最终使用muPDF读取了文档,切出必要的数据块,将其转换为Leptonica可读的图像,然后将其发送给Tessearact。 安装 阅读build.sh,将其修改为所需的语言或环境,然后运行。 我们正在从源代码构建muPDF,以将其链接到Python绑定。 当前包含的build.sh是针对Debian风格Linux(apt)设置的。 随意摆弄C可执行文件,进行编译,并使用类似于以下内容的东西: gcc -g -o build/release/example -Iinclude ../conv.c build
【文件预览】:
ocrpdf-master
----build.sh(607B)
----conv.h(782B)
----conv.c(10KB)
----ocrpdf.c(3KB)
----setup.py(1KB)
----README.md(2KB)

网友评论