【文件属性】:
文件名称:apache tika 源文件
文件大小:33.73MB
文件格式:ZIP
更新时间:2015-06-14 04:39:36
tika
Apache Tika 利用现有的解析类库,从不同格式的文档中(例如HTML, PDF, Doc),侦测和提取出元数据和结构化内容。
功能包括:
侦测文档的类型,字符编码,语言,等其他现有文档的属性。
提取结构化的文字内容。
该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具。