【文件属性】:
文件名称:TextExtraction:从各种格式的文件中提取文本
文件大小:995KB
文件格式:ZIP
更新时间:2021-02-17 01:44:34
Python
文字提取
介绍:
从各种格式的文件中提取文本。
格式:
Microsoft Office-Word,Excel和PowerPoint 旧版本(97-03); 新版本; 宏文件。
纯文本文件文本
富文本格式(RTF)
便携式文件格式(PDF) 文件类型; 扫描类型(使用OCR)
类似于Excel的格式CSV和tsv
开放文件格式(ODF) ods; odt; odp
标记语言格式Markdown(md); Yaml(yml); HTML(html,htm); xml; chm; 乳胶(tex)
电子邮件eml; 味精
电子书手机epub; z
压缩格式压缩; rar; 柏油; 7z ...
其他
【文件预览】:
TextExtraction-master
----ui()
--------face()
--------__init__.py(40B)
--------logo()
----7z()
--------7-zip32.dll(50KB)
--------7z.exe(458KB)
--------7z.dll(1.6MB)
----README.md(595B)
----index.py(17KB)
----database.py(2KB)
----extracttext.py(27KB)
----uncompress.py(2KB)