boilerpipe:从 HTML 页面中删除样板和全文提取

时间:2021-06-16 18:31:40
【文件属性】:
文件名称:boilerpipe:从 HTML 页面中删除样板和全文提取
文件大小:2.29MB
文件格式:ZIP
更新时间:2021-06-16 18:31:40
Java 锅炉管 样板库提供了算法来检测和删除网页主要文本内容周围多余的“混乱”(样板、模板)。 该库已经为常见任务(例如:新闻文章提取)提供了特定策略,并且还可以针对个别问题设置轻松扩展。 提取内容非常快(毫秒),只需要输入文档(不需要全局或站点级别的信息)并且通常非常准确。 Boilerpipe 是一个由编写的 Java 库。 它是在 Apache License 2.0 下发布的。 从自动导出

网友评论