folioxml:Folio Flat File到XMLHTMLLucene转换框架

时间:2024-06-07 14:20:27
【文件属性】:

文件名称:folioxml:Folio Flat File到XMLHTMLLucene转换框架

文件大小:421KB

文件格式:ZIP

更新时间:2024-06-07 14:20:27

Java

掌握: 开发: 这是什么? 这是Folio Flat File数据库的完整流式处理词法分析器,解析器和编译器。 输出包括SLX,XML,HTML和Lucene。 基于流的(不是基于DOM的)-可以以非常低的RAM使用率快速处理千兆字节。 第一步是无损转换为SLX格式。 这就像XML,但是包含“ ghost标签”,它们成对出现(带有匹配的GUID),并且可以在任何地方开始和结束。 这将〜120关键字〜20上下文语言简化为〜12关键字和2个上下文。 第二种转换是从SLX到XML。 这导致幻影标签被分割,因此名义上是有损的,但实际上是无损的。 从XML,我们可以转换为HTML,Lucene等。 我们甚至支持将查询链接转换为超链接,因为我们已经在folioxml-lucene包中重新实现了folio查询语言。 我们的XML实现提供了基于正则表达式的搜索和替换,仅影响节点的文本内容-


网友评论