一种基于文本抽取的网页正文去重算法

时间:2014-09-09 10:01:53
【文件属性】:
文件名称:一种基于文本抽取的网页正文去重算法
文件大小:184KB
文件格式:PDF
更新时间:2014-09-09 10:01:53
文本抽取 网页特征码 二叉排序树 网页去重 搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重 算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果 优化处理中的页面正文内容去重。

网友评论