docconv:将PDF,DOC,DOCX,XML,HTML,RTF等转换为纯文本

时间:2021-02-03 14:25:54
【文件属性】:
文件名称:docconv:将PDF,DOC,DOCX,XML,HTML,RTF等转换为纯文本
文件大小:1.46MB
文件格式:ZIP
更新时间:2021-02-03 14:25:54
go html pdf docs xml docconv Go包装器库,可将PDF,DOC,DOCX,XML,HTML,RTF,ODT,Pages文档和图像(请参见下面的可选依赖项)转换为纯文本。 对于code.sajari.com/docconv用户的注意事项:该软件包的Go导入路径已移至code.sajari.com/docconv 。 安装 如果您尚未安装Go,则首先需要 。 要获取并构建代码: $ go get code.sajari.com/docconv/... 这还将在$GOPATH/bin构建命令行工具docd 。 确保$GOPATH/bin在PATH环境变量中。 依存关系 整洁,wv,popplerutils,unrtf, 安装依赖项的示例(并非所有系统): $ sudo apt-get install poppler-utils wv unrtf tidy $ go get github.com/JalfResi/justext 可选依赖项 要将图像支持添加到docconv库,您首先需要 。 现在,您可以在构建/获取/测试docconv时将-tags ocr添加到任何go命令中,以包括对图像
【文件预览】:
docconv-master
----image.go(387B)
----url.go(635B)
----client()
--------client.go(3KB)
--------cmd()
----.gitignore(24B)
----go.mod(882B)
----html.go(9KB)
----doc.go(2KB)
----odt.go(2KB)
----iWork()
--------TSPArchiveMessages.pb.go(17KB)
--------TSPMessages.pb.go(14KB)
--------TSPDatabaseMessages.pb.go(4KB)
--------pb-schema()
----pdf_ocr.go(3KB)
----pdf_text.go(2KB)
----pdf.go(553B)
----.travis.yml(140B)
----html_appengine.go(234B)
----xml.go(2KB)
----rtf.go(1KB)
----LICENSE(1KB)
----snappy()
--------decode.go(7KB)
--------snappy.go(2KB)
--------LICENSE(1KB)
--------snappy_test.go(10KB)
--------encode.go(7KB)
--------README(620B)
----image_ocr.go(826B)
----go.sum(9KB)
----docconv_test.go(358B)
----testdata()
--------001-helloworld.png(29KB)
----docd()
--------alpine.sh(376B)
--------alpine()
--------appengine.sh(420B)
--------debian.sh(268B)
--------appengine()
--------debian()
--------main.go(4KB)
----README.md(4KB)
----docx_test()
--------docx_test.go(1KB)
--------testdata()
----tidy.go(726B)
----local.go(1KB)
----docx.go(4KB)
----pages.go(1KB)
----docconv.go(3KB)
----pptx_test()
--------pptx_test.go(587B)
--------testdata()
----image_ocr_test.go(939B)
----pptx.go(1KB)

网友评论