网络爬虫SearchCrawler

时间:2014-07-19 06:09:35
【文件属性】:
文件名称:网络爬虫SearchCrawler
文件大小:4KB
文件格式:RAR
更新时间:2014-07-19 06:09:35
爬虫spider,crawler 该程序是利用Java实现的搜索程序,可以搜索出摸个网站内的所有网页。可以对输入的网址利用层次和数量限制进行搜索。现在所有搜索引擎都是用利用爬虫进行网页的搜索的。 比如输入www.***.com 限制搜索10000个网页,最多搜索5层。在程序执行完毕后,会扫描出所有的网址,并输入到D:\out1文件中。 搜索的网页数量和层次可以自己设定,不推荐进行站外搜索,同样不推荐扫描层次超过5层(其实5层已经足够了),以免超过内存容量,导致系统出错。
【文件预览】:
网络爬虫
----SearchCrawler.java(10KB)
----urlclass.java(667B)

网友评论

  • 还不错,正好有用
  • 还不错,正好需要参考参考,谢谢!
  • 不知道是什么原因,在我电脑上面不能运行。希望能够给出运行步骤
  • 不知道为什么运行不起来啊……
  • 可以定义最大搜索量和层次 不错