简单的java爬虫程序

时间:2014-09-12 13:21:42
【文件属性】:
文件名称:简单的java爬虫程序
文件大小:4.25MB
文件格式:RAR
更新时间:2014-09-12 13:21:42
java 爬虫 这是个完整的java爬虫程序,可以从一个指定的种子url开始以b广度优先的原则趴下相关的网页,保存在硬盘上
【文件预览】:
SecSpider+savebyUrl
----.project(385B)
----bin()
--------urllearning()
--------Argument()
--------FrmMain$1.class(932B)
--------PanelDown.class(947B)
--------PanelTop.class(942B)
--------Crawler.class(9KB)
--------FrmMain$2.class(931B)
--------mannage()
--------FrmMain.class(7KB)
--------queue()
--------PanelLeft.class(1KB)
--------manage()
--------Crawler$Processer.class(1KB)
--------PanelRight.java.bak(848B)
--------MainFrame.class(2KB)
--------SearchCrawler.class(8KB)
--------FrmMain$3.class(645B)
--------PanelRight.class(2KB)
----.settings()
--------org.eclipse.core.resources.prefs(117B)
--------org.eclipse.jdt.core.prefs(629B)
----fileindex.txt(1KB)
----src()
--------PanelTop.java(589B)
--------MainFrame.java(2KB)
--------urllearning()
--------Argument()
--------mannage()
--------queue()
--------manage()
--------PanelDown.java(593B)
--------PanelRight.java.bak(848B)
--------FrmMain.java(8KB)
--------PanelLeft.java(1022B)
--------SearchCrawler.java(9KB)
--------PanelRight.java(1KB)
--------Crawler.java(10KB)
----web()
----report.txt(2KB)
----需求分析0811(改).doc(103KB)
----.classpath(3KB)
----lib()
--------htmllexer.jar(68KB)
--------filterbuilder.jar(66KB)
--------cpdetector_1.0.5.jar(521KB)
--------je-analysis-1.5.1.jar(871KB)
--------log4j-1.2.15.jar(383KB)
--------commons-logging-1.0.4.jar(37KB)
--------thumbelina.jar(32KB)
--------antlr.jar(350KB)
--------commons-codec-1.4.jar(57KB)
--------chardet.jar(26KB)
--------junit.jar(118KB)
--------commons-httpclient-3.1.jar(298KB)
--------lucene-core-2.1.0.jar(453KB)
--------sax2.jar(35KB)
--------htmlparser.jar(281KB)
--------IKAnalyzer.jar(846KB)

网友评论

  • 思路很棒,就是跑不起来,自己改咯
  • 缺失了很多jar文件,还需要自己下载
  • 我自己改装了一下, 现在我写的爬虫基本都是这思路了. 虽然没有节目, 不过还是很好用的
  • 没界面。。。。让人怎么看