MinerHtmlThread.java 爬取页面线程

MinerHtmlThread.java 爬取页面线程

package com.iteye.injavawetrust.miner;

import org.apache.commons.logging.Log;

import org.apache.commons.logging.LogFactory;

import org.jsoup.Connection;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

/**

 * 爬取页面线程

 * @author InJavaWetrust

 *

 */

public class MinerHtmlThread extends Thread {

	private static final Log LOG = LogFactory.getLog(MinerHtmlThread.class);

	private MinerConfig config = null;

	public MinerHtmlThread(MinerConfig config) {

		this.config = config;

	}

	@Override

	public void run() {

		while (!MinerMonitorThread.done) {

			minerHtml();

		}

	}

	public synchronized void minerHtml() {

		MinerUrl minerUrl = MinerQueue.unVisitedPoll(); // 待访问出队列。

		try {

			//判断当前页面爬取深度

			if(null == minerUrl || MinerUtil.isBlank(minerUrl.getUrl()) || minerUrl.getDepth() > config.getMaxDepth()) {

				return;

			}

			//判断爬取页面URL是否包含http

			if("http".contains(minerUrl.getUrl())) {

				LOG.info("MinerHtmlThread当前爬取URL[" + minerUrl.getUrl() + "]没有http");

				return;

			}

			LOG.info("MinerHtmlThread当前爬取页面[" + minerUrl.getUrl() + "]爬取深度[" + minerUrl.getDepth() + "] 当前线程 [" + Thread.currentThread().getName() + "]");

			Connection conn = Jsoup.connect(minerUrl.getUrl());

			conn.header("User-Agent", "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.2.149.27 Safari/525.13");//配置模拟浏览器

			Document doc = conn.get();

			String page = doc.html();

			Html html = new Html();

			html.setUrl(minerUrl.getUrl());

			html.setHtml(page);

			html.setDepth(minerUrl.getDepth());

			// 添加到存储队列

			MinerQueue.addStore(html);

			// 已经爬取的页面 添加到等待提取URL的分析页面队列

			MinerQueue.addWaitingMisering(html); 

		} catch(Exception e) {

			LOG.info("MinerHtmlThread爬取页面失败 URL [" + minerUrl.getUrl() + "]");

			LOG.info("MinerHtmlThreadError info [" + e.getMessage() + "]");

		}

	}

}

返回列表

MinerHtmlThread.java 爬取页面线程的更多相关文章

【java】使用URL和CookieManager爬取页面的验证码和cookie并保存
使用java的net包和io包下的几个工具爬取页面的验证码图片并保存到本地. 然后可以把获取的cookie保存下来,做进一步处理.比如通过识别验证码,进一步使用验证码和用户名,密码,保存下来的cook ...
MinerConfig&period;java 爬取配置类
MinerConfig.java 爬取配置类 package com.iteye.injavawetrust.miner; import java.util.List; /** * 爬取配置类 * @ ...
Java爬取同花顺股票数据（附源码）
最近有小伙伴问我能不能抓取同花顺的数据,最近股票行情还不错,想把数据抓下来自己分析分析.我大A股,大家都知道的,一个概念火了,相应的股票就都大涨. 如果能及时获取股票涨跌信息,那就能在刚开始火起来的时 ...
Java爬取校内论坛新帖
Java爬取校内论坛新帖为了保持消息灵通,博主没事会上上校内论坛看看新帖,作为爬虫爱好者,博主萌生了写个爬虫自动下载的想法. 嗯,这次就选Java. 第三方库准备 Jsoup Jsoup是一款比较好 ...
java爬取并下载酷狗TOP500歌曲
是这样的,之前买车送的垃圾记录仪不能用了,这两天狠心买了好点的记录仪,带导航.音乐.蓝牙.4G等功能,寻思,既然有这些功能就利用起来,用4G听歌有点奢侈,就准备去酷狗下点歌听,居然都是需要办会员才能下 ...
Java爬取并下载酷狗音乐
本文方法及代码仅供学习,仅供学习. 案例: 下载酷狗TOP500歌曲,代码用到的代码库包含:Jsoup.HttpClient.fastJson等. 正文: 1.分析是否可以获取到TOP500歌单打开 ...
Java爬取先知论坛文章
Java爬取先知论坛文章 0x00 前言上篇文章写了部分爬虫代码,这里给出一个完整的爬取先知论坛文章代码. 0x01 代码实现 pom.xml加入依赖: <dependencies> & ...
Java 爬取 51job 数据 WebMagic实现
Java 爬取 51job 数据一.项目Maven环境配置相关依赖 jar 包配置 <parent> <groupId>org.springframework.boot&l ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...

随机推荐

北京程序员 VS 硅谷程序员(转)
夫妻双码农,北京 or 硅谷,值得吗? http://mp.weixin.qq.com/s?__biz=MzA5MzE4MjgyMw==&mid=401228574&idx=1&amp ...
ASP&period;net解析JSON例子
using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.We ...
python遍历数组的两种方法
第一种,最常用的,通过for in遍历数组 1 2 3 4 5 6 7 8 colours = ["red","green","blue"] ...
chrome调试js工具的使用
Audits标签页这个对于优化前端页面.加速网页加载速度很有用哦(相当与Yslow): 点击run按钮,就可以开始分析页面,分析完了就可以看到分析结果了: 它甚至可以分析出页面上样式表中有哪些CSS ...
给jdk写注释系列之jdk1&period;6容器(4)-HashMap源码解析
前面了解了jdk容器中的两种List,回忆一下怎么从list中取值(也就是做查询),是通过index索引位置对不对,由于存入list的元素时安装插入顺序存储的,所以index索引也就是插入的次序. M ...
24&period;allegro中光绘gerber[原创]
光绘一,基本设置或者: ------------------------------------- ------- ------- 二,需要设置内容: 1)顶层和底层: 2)内部布线层: 3)OU ...
Cygwin下编译的程序不使用Cygwin&period;dll即可运行的命令及常用命令简介
cc -mno-cygwin foo.c 1.$ ps PS的相关用法: QuoteUsage ps [-aefl] [-u uid]-f = show process uids, ppids-l = ...
tidb调研
TiDB是新一代开源分布式 NewSQL 数据库,相比较于我们常见的数据库MySQL,TiDB具有水平伸缩.强一致性的分布式事务.基于 Raft 算法的多副本复制等特性.同时,TiDB兼容MySQL生 ...
nginx 方向代理 jenkins
环境 10.0.0.20 Nginx 10.0.0.21 jenkins 10.0.0.20 nginx 进入到nginx目录,去除无用字段输入到conf.d/jenkins.conf 文件中 [ro ...
[z]protobuf实现c++与java之间的数据传递，beancopy数据到前台
[z]http://blog.csdn.net/xhyzdai/article/details/46684335 定义proto文件 option java_package = "com.w ...