【文件属性】:
文件名称:doc_ripper:解析常见文件格式的文本内容
文件大小:213KB
文件格式:ZIP
更新时间:2021-03-02 05:26:51
Ruby
DocRipper
使用1命令从通用文档格式中获取文本。 DocRipper是一种非常轻巧的Ruby包装器,可用于解析常见文件格式(当前为.doc,.docx和.pdf,.sketch)中的文本内容,而无需像OCR库或OpenOffice / LibreOffice这样的大量依赖项。
对于简单的解析,与依赖OpenOffice / LibreOffice进行.doc / .docx转换的解决方案相比,使用DocRipper可能会看到性能上的显着提高。
需要OCR支持或图像中文本解析吗? 看看 。
支持的文件格式
.doc
.docx
.pdf
.txt
.sketch
文件格式
支持的?
依存关系
.doc
X
反词
.docx
X
.pdf
X
Poppler实用程序
。文本
X
。草图
X
SQLite3的
快速开始
gem install doc_ripp
【文件预览】:
doc_ripper-master
----LICENSE.txt(1KB)
----lib()
--------doc_ripper()
--------doc_ripper.rb(1KB)
----Gemfile(96B)
----spec()
--------doc_ripper()
--------fixtures()
--------spec_helper.rb(204B)
----Rakefile(125B)
----README.md(2KB)
----doc_ripper.gemspec(1KB)
----.rspec(30B)
----.gitignore(92B)