Java基础-爬虫实战之爬去校花网网站内容

　　　　　　　　　　Java基础-爬虫实战之爬去校花网网站内容

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰

　　爬虫这个实现点我压根就没有把它当做重点，也没打算做网络爬虫工程师，说起爬虫我更喜欢用Python实现！下面是Java爬虫的代码如下：

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Scala%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.reptilian;

 import java.io.FileOutputStream;

 import java.io.IOException;

 import java.io.InputStream;

 import java.net.HttpURLConnection;

 import java.net.URL;

 public class ReptilianDemo {

     public static void main(String[] args) throws IOException {

         //定义需要爬取的网站

         URL url = new URL("http://www.xiaohuar.com/");

         //建立连接

         HttpURLConnection conn = (HttpURLConnection) url.openConnection();

         //设置请求方式

         conn.setRequestMethod("GET");

         //获取服务器响应的状态码

         int code = conn.getResponseCode();

         //判断状态码是否为200，如果是说明访问成功，那么就开始下载页面

         if(code == 200){

             InputStream in = conn.getInputStream() ;

             FileOutputStream out = new FileOutputStream("D:\\BigData\\JavaSE\\yinzhengjieData\\校花网.html",false) ;

             byte[] buf = new byte[1024] ;

             int len = 0 ;

             while((len = in.read(buf)) != -1){

 //                System.out.println(new String(buf ,0 ,len , "utf-8" ));

                 out.write(buf , 0 , len);

             }

             in.close();

             out.close();

             System.out.println("下载完成!");

         }

     }

 }

 /*

 以上代码执行结果如下:

 下载完成!

  */

　　查看爬去后的文件：

Java基础-爬虫实战之爬去校花网网站内容