网络爬虫的设计与实现

时间:2013-10-06 14:56:59
【文件属性】:
文件名称:网络爬虫的设计与实现
文件大小:167KB
文件格式:PDF
更新时间:2013-10-06 14:56:59
网络爬虫Webcrawler;广度优先爬取:多线程;DNS缓存;url判重 Web爬虫有两种爬取策略。基于Webcrawler(web爬虫)设计的BFS(广度优先)策略,文章使用MD5算法,来进行0(1)时间复杂度的链接判重。为了避免频繁的查询DNS服务器,建立DNS缓存。另外,也因一般行为模式的考量,在中加入了IP范围控制技术,网页过滤方法,和多线程并发技术。最后。给出了此爬虫所需的时间分析,以供评估并后续发展。

网友评论