java爬虫学习 - 秒客网

java尝试爬取一些简单的数据，比python复杂点

　　示例：爬取网站中的所有古风网名：http://www.oicq88.com/gufeng/，并储存入数据库（mysql）

　　　　jdk版本：jdk1.8

　　　　编辑器：idea

　　　　项目构建：maven

　　　　所需jar包：http://jsoup.org/packages/jsoup-1.8.1.jar

　　　　或maven依赖如下：

        <dependency>

            <groupId>org.jsoup</groupId>

            <artifactId>jsoup</artifactId>

            <version>1.7.3</version>

        </dependency>

具体代码如下：

package com.ssm.web.timed;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import com.ssm.commons.JsonResp;

import com.ssm.utils.ExportExcel;

import org.apache.log4j.Logger;

import org.jsoup.*;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import org.springframework.web.bind.annotation.RequestMapping;

import org.springframework.web.bind.annotation.RestController;

import javax.servlet.http.HttpServletResponse;

@RequestMapping

@RestController

public class TestCrawlerTime {

    private Logger log = Logger.getLogger(this.getClass());

    //根据url从网络获取网页文本

    public static Document getHtmlTextByUrl(String url, String page) {

        Document doc = null;

        try {

            //doc = Jsoup.connect(url).timeout(5000000).get();

            int i = (int) (Math.random() * 1000); //做一个随机延时，防止网站屏蔽

            while (i != 0) {

                i--;

            }

            doc = Jsoup.connect(url + page).data("query", "Java")

                    .userAgent("Mozilla").cookie("auth", "token")

                    .timeout(300000).get();

        } catch (IOException e) {

            /*try {

                doc = Jsoup.connect(url).timeout(5000000).get();

            } catch (IOException e1) {

                e1.printStackTrace();

            }*/

            System.out.println("error: 第一次获取出错");

        }

        return doc;

    }

    //递归查找所有的名字

    public static List getAllNames(List<String> names, String url, String page){

        Document doc = getHtmlTextByUrl(url, page);

        Elements nameTags = doc.select("div[class=listfix] li p");  //名字标签

        for (Element name : nameTags){

            names.add(name.text());

        }

        Elements aTags = doc.select("div[class=page] a[class=next]");   //页数跳转标签

        for (Element aTag : aTags){

            if ("下一页".equals(aTag.text())){                         //是下一页则继续爬取

                String newUrl = aTag.attr("href");

                getAllNames(names, url, newUrl);

            }

        }

        return names;

    }

    /**

    * @Description: 导出爬取到的所有网名

    * @Param:

    * @return:

    * @Author: mufeng

    * @Date: 2018/12/11

    */

    @RequestMapping(value = "/exportNames")

    public JsonResp export(HttpServletResponse response){

        log.info("导出爬取到的所有网名");

        String target = "http://www.oicq88.com/";

        String page = "/gufeng/1.htm";

        List names = new ArrayList();

        getAllNames(names, target, page);

        System.out.println(names.size());

        List<Object[]> lists = new ArrayList<>();

        Integer i = 1;

        for (Object name : names){

            lists.add(new Object[]{i, name});

            i ++;

        }

        String[] rowName = new String[]{ "", "网名"};

        ExportExcel exportExcel = new ExportExcel("古风网名大全", rowName, lists);

        try {

            exportExcel.export(response);

        } catch (Exception e) {

            e.printStackTrace();

        }

        return  JsonResp.ok();

    }

    public static void main(String[] args) {

        String target = "http://www.oicq88.com/";

        String page = "/gufeng/1.htm";

        List names = new ArrayList();

        getAllNames(names, target, page);

        System.out.println(names.size());

        System.out.println(names.get(0));

        System.out.println(names.get(names.size()-1));

    }

}

　　运行结果如下：

　　　　 java爬虫学习

　　参考教程：https://www.cnblogs.com/Jims2016/p/5877300.html

　　　　　　　https://www.cnblogs.com/qdhxhz/p/9338834.html

　　　　　　　https://www.cnblogs.com/sanmubird/p/7857474.html

附：python爬取数据

java爬虫学习的更多相关文章

Java 爬虫学习
Java爬虫领域最强大的框架是JSoup:可直接解析具体的URL地址(即解析对应的HTML),提供了一套强大的API,包括可以通过DOM.CSS选择器,即类似jQuery方式来取出和操作数据.主要功能 ...
半途而废的Java爬虫学习经历
最近在面试,发现Java爬虫对于小数据量数据的爬取的应用还是比较广,抽空周末学习一手,留下学习笔记 Java网络爬虫简单介绍爬虫我相信大家都应该知道什么,有什么用,主要的用途就是通过程序自动的去获 ...
Java爬虫学习（3）之用对象保存新浪微博博文
package com.mieba; import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Site; import us.c ...
Java爬虫学习（1）之爬取新浪微博博文
本次学习采用了webmagic框架,完成的是一个简单的小demo package com.mieba.spiader; import us.codecraft.webmagic.Page; impor ...
Java爬虫学习（2）之用对象保存文件demo（1）
package com.mieba.spider; import java.util.ArrayList; import java.util.List; import java.util.Vector ...
java爬虫案例学习
最近几天很无聊,学习了一下java的爬虫,写一些自己在做这个案例的过程中遇到的问题和一些体会1.学习目标练习爬取京东的数据,图片+价格+标题等等 2.学习过程 1·开发工具 ...
（java）Jsoup爬虫学习--获取智联招聘（老网站）的全国java职位信息，爬取10页
Jsoup爬虫学习--获取智联招聘(老网站)的全国java职位信息,爬取10页,输出职位名称*****公司名称*****职位月薪*****工作地点*****发布日期 import java.io.I ...
（java）Jsoup爬虫学习--获取网页所有的图片，链接和其他信息，并检查url和文本信息
Jsoup爬虫学习--获取网页所有的图片,链接和其他信息,并检查url和文本信息此例将页面图片和url全部输出,重点不太明确,可根据自己的需要输出和截取: import org.jsoup.Jsou ...
学习Java爬虫文档的学习顺序整理
1.认识正则表达式(Java语言基础) https://www.toutiao.com/i6796233686455943693/ 2.正则表达式学习之简单手机号和邮箱练习 https://www.t ...

随机推荐

2&period;Android 自定义通用的Item布局
转载:http://www.jianshu.com/p/e7ba4884dcdd BaseItemLayout 简介在工作中经常会遇到下面的一些布局,如图标红处: 05.png 07.png 08. ...
java学习第十一天
第十二次课目标一维数组(创建访问) 一.概念与特点 1.概念相同数据类型的有序集合[] 数组名: 容器的名字元素: 下标变量,数组名[下标] 长度: length 下标: 位置.索引 ...
Gedit中文乱码
缺省配置下,用 Ubuntu 的文本编辑器(Gedit)打开GB18030(繁体中文用户请将这里的出现的GB18030替换成BIG5或BIG5-HKSCS)类型的中文编码文本文件时,将会出现乱码. 出 ...
SAE java应用读写文件（TmpFS和Storage）-----绝世好代码
近期不少java用户都在提sae读写本地文件的问题,在这里结合TmpFS和Storage服务说说java应用应该如何读写文件TmpFS是一个供应用临时读写的路径,但请求过后将被销毁.出于安全考虑,sa ...
Zmodem transfer canceled by remote side
linux sz命令时报这个错误,看了一头雾水. 仔细看了一下发现竟然是要sz的文件名称写错了,抱着个错误和误导人呢.估计路径写错了也是这个错误.
花非花-记一次linux上运行时报找不到库函数错误
简介: --->:表示依赖 exe ---> a.so ---> utility.so 问题描述: exe运行起来报a.so中的函数f未定义. 解决过程: 一·nm a.so nm ...
vue中import引入模块路径中&commat;符号是什么意思
在编写vue文件中引入模块 import model from "@/common/model"; 这里路径前面的“@”符号表示什么意思? resolve: { // 自动补全的扩 ...
ES6 实战项目构建 ES6+glup+express
ES6推出已经有几个年头了,平时也有学过一些基本语法,无奈实践经验太少.而且前端早已脱离了刀耕火种的时代,一些自动化构建工具像gulp.webpack等也需要熟练掌握.最近刚签了三方,闲暇之余就找了个 ...
ansible批量自动安装LNMP
利用MYSQL的函数实现用户登录功能，进出都是JSON(第一版)
以HMAC密钥形式发放密钥令牌功能如下 1:记录用户的登录的IP地址.时间 2:实现密码错误次数超限后锁定,并提示何时解锁 CREATE DEFINER=`root`@`%` FUNCTION `u ...