网络爬虫的设计与实现下载

【文件属性】：
文件名称：网络爬虫的设计与实现
文件大小：167KB
文件格式：PDF
更新时间：2013-10-06 14:56:59
网络爬虫Webcrawler；广度优先爬取：多线程；DNS缓存；url判重 Web爬虫有两种爬取策略。基于Webcrawler(web爬虫)设计的BFS(广度优先)策略，文章使用MD5算法，来进行0(1)时间复杂度的链接判重。为了避免频繁的查询DNS服务器，建立DNS缓存。另外，也因一般行为模式的考量，在中加入了IP范围控制技术，网页过滤方法，和多线程并发技术。最后。给出了此爬虫所需的时间分析，以供评估并后续发展。

立即下载

秒客网

网络爬虫的设计与实现

网友评论

相关文章