表格OCR解决方案:利用表格识别技术完整地提取表格结构信息保存Excel

时间:2024-04-17 15:30:51
利用表格识别技术完整地提取表格结构信息,使得表格图片变为可编辑的Excel文件

​​书接上回:

 

避坑教程:最新百度PaddleOCR文字识别成功下载安装保姆级手把手教程 (weibo.com)

 

首先,讲下这个工具是干什么用的:它的功能主要是针对一张完整的PDF图片,可以对文档图片中的文本、表格、图片、标题与列表区域进行分类。同时还可以利用表格识别技术完整地提取表格结构信息,使得表格图片变为可编辑的Excel文件。如下图所示可以进行版面分析+表格识别。

 

 

 

先看表格图片OCR保存为Excel,实际效果对比



 

核心技术在于两个:一个是PP-Structure的版面分析技术,另一个是PaddleDetection开源的高效检测算法PP-YOLO v2。

PP-Structure Pipeline介绍:

 

 

安装 Layout-Parser

pip3 install -U https://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-any.whl

 

如果遇到如下错误提示:

​ModuleNotFoundError: No module named \'win32con\'

 

 

【解决方案】:

 

pip uninstall winshell 

pip uninstall pypiwin32 

pip install pywin32

 

 

pip install pypiwin32

 

1、安装pywin32

pip install pywin32

2、在site-packages找到win32

3、进入win32\lib\win32con.py

4、把win32con.py复制到site-packages可以直接import

import win32con

5、把win32con.py复制到win32目录下

import win32.win32con

6、读取不到的原因是因为不在sys.path下,所以改变环境变量的路径也行

 

查看python位数

C:\Users\king>python

Python 3.9.1 (tags/v3.9.1:1e5d33e, Dec 7 2020, 17:08:21) [MSC v.1927 64 bit (AMD64)] on win32

Type "help", "copyright", "credits" or "license" for more information.

从以下链接下载相应的版本后安装

https://github.com/mhammond/pywin32/releases

老版本:

https://sourceforge.net/projects/pywin32/files/pywin32

 

 

My solution is: 

python -m pip install pywin32

. Then you will see module win32file in the path of C:/python27/Lib/site-packages/win32file.pyd

 

download 

https://paddle-model-ecology.bj.bcebos.com/model/layout-parser/ppyolov2_r50vd_dcn_365e_publaynet.tar

to C:\Users\king/.paddledet/inference_model\ppyolov2_r50vd_dcn_365e_publaynet\ppyolov2_r50vd_dcn_365e_publaynet_infer\ppyolov2_r50vd_dcn_365e_publaynet.tar

 

更改环境变量:

默认的模型保存文件夹:

 

 

《如何实现实时视频文案转文字、音频歌词字幕提取和翻译?导出Excel...》 针对短视频文案、音频歌词、电影字幕、动态网页、PPT幻灯片、在线文档等OCR文字提取等应用场景而定制开发; 1、自动记录文字出现开始时间、结束时间,动态识别文字,实时滚动,可直接编辑,并可导出 Exce展开全文c
 

 

 

 
视频教程:图片文字识别多线程多任务并行OCR,高效高速图片转文字支持输出Excel表格  
详情:O网页链接 ​
 
发布了头条文章:《如何批量将图片OCR识别为可编辑文字?这款软件支持多线程多任务并行》 支持最多同时并行处理40项任务,速度看到见,提升速度40倍。一款基于开放互操作人工智能的AI深度学习的OCR软件。单图OCR 以及 *截屏OCR识别、批量OCR、动态OCR(定时OCR),支展开全文c
 


​​​​