Java爬虫项目实战（一）

目的：

通过网络爬虫爬取中国最小粒度的区域维度信息，包括省(Province) 、市(City)、县(County)、镇(town)、村委会(village)

主网站链接：

http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html

主要jar包：

http://jsoup.org/packages/jsoup-1.8.1.jar

之前一节我们说过java爬虫从网络上利用jsoup获取网页文本，也就是说我们可以有三种方法获取html，一是根据url链接，而是从本地路径获取，三是通过字符串解析成html文档

在这里，我们利用前两种搭配使用：

先看本地是否存在需要的网页，如果不存在就通过url获取并保存在本地（下次就可以不需要重新从网络加载）

我们先建一个类叫做Html类，具体内容如下：

package Product;

import java.io.BufferedInputStream;

import java.io.BufferedOutputStream;

import java.io.File;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStream;

import java.net.URL;

import java.util.ArrayList;

import java.util.Arrays;

import org.jsoup.*;

import org.jsoup.nodes.*;

import org.jsoup.select.*;

public class Html {

     //根据url从网络获取网页文本

    public Document getHtmlTextByUrl(String url)

    {

        Document doc = null;

        try {

            //doc = Jsoup.connect(url).timeout(5000000).get();

            int i = (int) (Math.random()*1000); //做一个随机延时，防止网站屏蔽

while(i!=0) 
{ i--; } 
doc= Jsoup.connect(url).data("query", "Java") 
.userAgent("Mozilla") .cookie("auth", "token") 
.timeout(300000) .post(); 
} catch (IOException e) 
{ e.printStackTrace();
 try { 
    doc = Jsoup.connect(url).timeout(5000000).get(); 
} 
catch (IOException e1)
 { // TODO Auto-generated catch block  e1.printStackTrace(); } } 

return doc; 
} 

//根据本地路径获取网页文本，如果不存在就通过url从网络获取并保存 

public Document getHtmlTextByPath(String name,String url)
 {
     String path = "D:/Html/" +name+".html";
    Document doc = null ; 
    File input = new File(path); 
   String urlcat = url; 
try { 
     doc = Jsoup.parse(input, "GBK"); 
if(!doc.children().isEmpty()) 
{ 
  doc=null; System.out.println("已经存在"); } 
} 
catch (IOException e) 
{
   System.out.println("文件未找到，正在从网络获取.......");
    doc = this.getHtmlTextByUrl(url); 
   //并且保存到本地 
   this.Save_Html(url, name); } return doc; }  //此处为保存网页的函数

//将网页保存在本地（通过url,和保存的名字）

    public  void Save_Html(String url,String name) {

                  try {

                       name =  name+".html";

                     // System.out.print(name);

                     File dest = new File("D:/Html/" +name);//D:\Html

                      //接收字节输入流

                      InputStream is;

                      //字节输出流

                      FileOutputStream fos = new FileOutputStream(dest);

                     URL temp = new URL(url);

                     is = temp.openStream();

                     //为字节输入流加缓冲

                     BufferedInputStream bis = new BufferedInputStream(is);

                     //为字节输出流加缓冲

                     BufferedOutputStream bos = new BufferedOutputStream(fos);

                     int length;

                     byte[] bytes = new byte[1024*20];

                     while((length = bis.read(bytes, 0, bytes.length)) != -1){

                         fos.write(bytes, 0, length);

                     }

                     bos.close();

                     fos.close();

                     bis.close();

                     is.close();

                 } catch (IOException e) {

                     e.printStackTrace();

                 }

             }

这样通过Html这个类，调用getHtmlTextByPath函数，传入我们的链接和想要保存的名称，接下就可以对这个网页文本提取信息

并将整个网页下载到我们的本地。

看到我们的网站是这样的：

Java爬虫项目实战（一）

利用谷歌浏览右键检查元素，我们注意观察黄色标记的部分：

Java爬虫项目实战（一）

我们发现这些文本信息和超链接信息在tr 下的td下的a标签内，利用我们的jsoup可以直接获取到这些信息，详情请看：

//根据元素属性获取某个元素内的elements列表

    public Elements getEleByClass(Document doc,String className)

    {

        Elements elements= null;    
       elements = doc.select(className);//这里把我们获取到的html文本doc，和工具class名，注意<tr class="provincetr">
       return elements;   //此处返回的就是所有的tr集合
 }

我们在调用的时候，就直接把我们获取的html文本，以及"tr.provincertr"作为参数传入，在来解析tr集合内部的信息，

也就是td中两个a标签href和文本内容：比如href="12.html" 北京

代码如下：

//获取省 、市 、县等的信息

    public ArrayList getProvince(String name,String url ,String type)

    {    ArrayList result= new ArrayList();

        //"tr.provincetr"

         String classtype = "tr."+type+"tr";

         //从网络上获取网页

        // Document doc = this.getHtmlTextByUrl(url);

         //从本地获取网页,如果没有则从网络获取

         Document doc2 = this.getHtmlTextByPath(name,url);

         System.out.println(name);

         if(doc2!=null){

         Elements es =this.getEleByClass(doc2,classtype);  //tr的集合

        for(Element e : es)   //依次循环每个元素，也就是一个tr

        {

            if(e!=null){

            for(Element ec : e.children())  //一个tr的子元素td，td内包含a标签

            {

                String[] prv = new String[4];   //身份的信息： 原来的url（当前url）  名称（北京） 现在url（也就是北京的url）  类型（prv）省

                if(ec.children().first()!=null)

                {

                //原来的url

                prv[0]=url;  //就是参数url

                //身份名称

                System.out.println(ec.children().first().ownText());

                prv[1]=ec.children().first().ownText();  //a标签文本  如:北京

                //身份url地址

                //System.out.println(ec.children().first().attr("href"));

                //http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html

                String ownurl=ec.children().first().attr("abs:href");  //北京的url

                //因为如果从本地取得话，会成为本地url，所以保留第一次从网络上的url，保证url不为空

                if(ownurl.length()<10)

                {   connectOrcl c = new connectOrcl();

                    ownurl = c.selectOne(prv[1]); //从数据库中取，这是另一个调用数据库函数，根据名称取url

                }

                prv[2]=ownurl;  //如：北京自己的url

                System.out.println(prv[2]);

                //级别

                prv[3]=type; //就是刚刚传的类型，后面会有city 、county等

              //将所有身份加入list中

                result.add(prv);}

            }}

        }

    }

        return result;  //反回所有的省份信息集合，存数据库，字段类型为： baseurl  name ownurl levelname（type） updatetime

    }

java获取本机的名称和ip

//获取本机名称和IP
public static void main(String[] args) {

         InetAddress ia=null;

         try {

            ia = ia.getLocalHost();

             String localname=ia.getHostName();

             String localip=ia.getHostAddress();

                System.out.println("本机名称是："+ localname);

                System.out.println("本机的ip是 ："+localip);

        } catch (UnknownHostException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

java获取本机的屏幕分辨率,DPI,以及屏幕尺寸

屏幕分辨率：比如1366*768

DPI：意思是说一英寸多少个象素

屏幕的物理尺寸：屏幕的物理大小还需要知道屏幕的dpi ，然后用象素除以dpi 就可以得到多少英寸了

//获取电脑屏幕信息
public static void getScreen()

    {

         Dimension   screensize   =   Toolkit.getDefaultToolkit().getScreenSize();

         int width = (int)screensize.getWidth();

         int height = (int)screensize.getHeight();

         System.out.println("宽的像素："+width+"高的像素："+height);

         //获取屏幕的dpi

         int dpi = Toolkit.getDefaultToolkit().getScreenResolution();

         System.out.println(dpi);

         //根据dpi和像素，可以计算物理尺寸

         System.out.println("宽："+width/dpi+"高："+height/dpi);

    }

秒客网

Java爬虫项目实战（一）

目的：

通过网络爬虫爬取中国最小粒度的区域维度信息，包括省(Province) 、市(City)、县(County)、镇(town)、村委会(village)

主网站链接：

http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html

主要jar包：

http://jsoup.org/packages/jsoup-1.8.1.jar

java获取本机的名称和ip

java获取本机的屏幕分辨率,DPI,以及屏幕尺寸

相关文章