python学习(十七) 爬取MM图片

这一篇巩固前几篇文章的学到的技术，利用urllib库爬取美女图片，其中采用了多线程，文件读写，
目录匹配，正则表达式解析，字符串拼接等知识，这些都是前文提到的，综合运用一下，写个爬虫
示例爬取美女图片。
先定义几个匹配规则和User_Agent

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'
PATTERN1 = r'<div id="content">.*?<h2>(.*?)</h2>'                
PATTERN2 = r'<p><img src="(.*?)"'
PATTERN2 = r'<p><img class=".*?src="(.*?)"'
PATTERN3 = r'''<li class='next-page'><a target="_blank" href='(.*?)'>下一页'''
PATTERN4 = r'^(.*)/'
PATTERN5 = r'^.*/(.*?)$'

读者可以根据不同网站的代码去修改这些规则，达到匹配一些网站的目的。

1定义抓图类

class GetMMPic(object):
	def __init__(self,path,httpstr):
		# 去除首位空格
		path = path.strip()
		# 去除尾部 \ 符号
		path = path.rstrip('\\')
		self.path = path
		self.url = httpstr
		self.user_agent = USER_AGENT

初始化构造函数中设置了路径和网络地址，以及请求的user_agent。

2封装信息请求和读取函数

def requestData(self,url, user_agent):
	try:
		req = request.Request(url)
		req.add_header('User-Agent', user_agent)
		response = request.urlopen(req,timeout = 8)
		#bytes变为字符串
		content = response.read().decode('utf-8')
		return content
	except error.URLError as e:
		if hasattr(e,'code'):
			print (e.code)
		if hasattr(e,'reason'):
			print (e.reason)
	except error.HTTPError as e:
		if hasattr(e,'code'):
			print(e.code)
		if hasattr(e,'reason'):
			print(e.reason)
		print('HTTPError!!!')

这个函数功能主要是请求url网络地址，加上user_agent后，获取数据，并且采用utf-8
编码方式解析。

3封装创建目录函数

def makedir(self,dirname):
	joinpath = os.path.join(self.path,dirname)
	print(joinpath)
	isExists = os.path.exists(joinpath)
	if isExists:
		print('目录已经存在\n')
		return None
	else:
		os.makedirs(joinpath)
		print('创建成功\n')
		return joinpath

该函数主要是完成在GMMPic类配置的路径下(默认是./)，生成子目录，子目录的名字由
参数决定。简单地说就是要在当前目录下生成文件名对应的文件夹，保存不同的图片。

4 获取当前页面信息保存图片

def getPageData(self,httpstr):
	content = self.requestData(self.url, self.user_agent)
	namepattern = re.compile(PATTERN1,re.S)
	nameresult = re.search(namepattern, content)
	namestr = nameresult.group(1)
	dirpath = self.makedir(namestr)
	if not dirpath:
		print('目录已存在')
		return

	picpattern = re.compile(PATTERN2,re.S)

	lastpattern = re.compile(PATTERN5, re.S)

	while(1):
		print('正在爬取%s........'%(namestr))
		picitems = re.findall(picpattern,content)
		for item in picitems:
			picrs = re.search(lastpattern, item)
			picname = picrs.group(1)
			filedir = os.path.join(dirpath,picname)
			url = quote(item, safe = string.printable)
			try:
				req = request.Request(url)
				req.add_header('User-Agent',USER_AGENT)
				response = request.urlopen(req)
				picdata =response.read()
				with open(filedir,'wb') as file:
					file.write(picdata)
			except error.URLError as e:
				if hasattr(e,'code'):
					print (e.code)
				if hasattr(e,'reason'):
					print (e.reason)
			except error.HTTPError as e:
				if hasattr(e,'code'):
					print (e.code)
				if hasattr(e,'reason'):
					print (e.reason)

		print('\n%s爬取成功.......'%(namestr))
		break

getPageData()函数根据PATTERN2匹配页面符合条件的图片资源，根据PATTERN5取出图片名字(不含类型),
通过for循环一个一个保存。

运行程序，提示输入网址，
python学习(十七) 爬取MM图片
这里输入男人装某篇文章的地址，效果如下：

5 采用多线程提高并发能力

编写线程回调函数 workthread，每个线程去爬不同的文章

def workthread(item, user_agent,path):
	strurl = 'http://yxpjw.club'+item[0]
	picname = item[1]
	print('正在爬取%s...........................\n' %(picname))
	content = requestData(strurl,user_agent)

	strurl2 = re.search(r'^(.*)/',strurl).group(0)
	print('https headers...............%s'%(strurl2))
	#destname = os.path.join(path,picname+'.txt')
	#with open(destname, 'w',encoding='gbk') as file:
		#file.write(content)
	destdir = os.path.join(path,picname)
	os.makedirs(destdir)
	page = 1
	while(1):
		content = getpagedata(content,destdir,page,strurl2)
		if not content:
			break
		page = page + 1
	print('%s数据爬取成功！！！\n'%(picname))

开辟多个线程，去爬首页各个分栏，实现自动化抓图

def getDetailList(self,content):
	s2 = r'<h2><a target="_blank" href="(.*?)" title="(.*?)"'
		pattern =re.compile(s2 , re.S
			)
	result = re.findall(pattern, content)
	with open('file.txt','w',encoding='gbk') as f:
		f.write(content)

	if not result:
		print('匹配规则不适配..............')

	threadsList=[] 
	for item in result:
		t = threading.Thread(target = workthread, args=(item, self.user_agent, self.path))
		threadsList.append(t)
		t.start()

	for threadid in threadsList:
		threadid.join()

源码下载地址：
https://github.com/secondtonone1/python-
谢谢关注我的公众号：

python学习(十七) 爬取MM图片

python学习(十七) 爬取MM图片的更多相关文章

Python爬虫学习（6）&colon; 爬取MM图片
为了有趣我们今天就主要去爬取以下MM的图片,并将其按名保存在本地.要爬取的网站为: 大秀台模特网 1. 分析网站进入官网后我们发现有很多分类: 而我们要爬取的模特中的女模内容,点进入之后其网址为:h ...
百度图片爬虫-python版-如何爬取百度图片&quest;
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
[Python学习] 简单爬取CSDN下载资源信息
这是一篇Python爬取CSDN下载资源信息的样例,主要是通过urllib2获取CSDN某个人全部资源的资源URL.资源名称.下载次数.分数等信息.写这篇文章的原因是我想获取自己的资源全部的评论信息. ...
python学习之——爬取网页信息
爬取网页信息说明:正则表达式有待学习,之后完善此功能 #encoding=utf-8 import urllib import re import os #获取网络数据到指定文件 def getHt ...
python爬虫之爬取百度图片
##author:wuhao##爬取指定页码的图片,如果需要爬取某一类的所有图片,整体框架不变,但需要另作分析#import urllib.requestimport urllib.parseimpo ...
Python 学习笔记---爬取海贼王动漫
最近无聊整理的爬虫代码,可以自动爬取腾讯动漫的任意漫画,思路如下: 1. 先获取想下载的动漫url, 这里用了 getUrls ,直接获取动漫的最后一章 2. 然后进入到该动漫去获取要下载的图片url ...
Python多线程爬虫爬取网页图片
临近期末考试,但是根本不想复习!啊啊啊啊啊啊啊!!!! 于是做了一个爬虫,网址为 https://yande.re,网页图片为动漫美图(图片带点颜色........宅男福利 github项目地址为:h ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
python 3 爬取百度图片
python 3 爬取百度图片学习了:https://blog.csdn.net/X_JS612/article/details/78149627

随机推荐

SQL Server 中 RAISERROR 的用法
From : http://www.cnblogs.com/xugang/archive/2011/04/09/2010216.html raiserror 是由单词 raise error 组 ...
Java中生成随机字符的方法总结
package learnExercise; public class RandomCharacter { public static char getRandomCharacter(char ch1 ...
windows平台vhd磁盘文件挂载
在windows平台下挂载vhd磁盘文件类似于挂载iso等文件; 使用VHDMount工具挂载VHD文件启动Hyper-V里的外部VHD文件有点困难.如果在备份驱动上有个VHD文件,并需要从其虚拟机 ...
css3&colon; css3选择器
--------------------css3选择器-------------------------css3属性选择器 ~~属性选择器基本上ie7+都支持,可以相对放心的使用见: www.ca ...
Xshell 的安装教程
Xshell就是一个远程控制RHEL的软件:其他的还有很多,用什么都无所谓(根据公司情况). 下面我们来安装下这个工具: 双击exe 点下一步: 选免费的然后下一步:(免费的功能足够用了) 点接受 ...
转：Redis 使用经验总结
转自:Redis 总结精讲看一篇成高手系统-4 本文围绕以下几点进行阐述 1.为什么使用redis2.使用redis有什么缺点3.单线程的redis为什么这么快4.redis的数据类型,以及每种数据 ...
DIY电源拓扑线
记一些小事. 一.材料及工具:电源座DC-005.热熔胶.废弃PCB.锡线.导线.电烙铁.热风枪(或打火机.热熔胶枪) 二.使用热熔胶将电源座粘在一起.两个电源座之间垫一块废弃的PCB,防止两者距离过 ...
rootkit(kbeast-v1)
Rootkit有应用级.内核级和硬件级用的比较多的是内核级别,比如基于linux LKM编写的rootkit rootkit可以理解为一个超级管理员的工具箱,这个工具箱通过调用系统LKM接口可以动态 ...
lamp环境配置
一.配置虚拟域名 1.为了模拟DNS,在本地hosts文件中设置一下 2.模拟三个项目 3.在apache中配置虚拟主机去到apache的sites-available目录里复制三次def ...
一步步搭建 Spring Boot maven 框架的工程
摘要:让Spring应用从配置到运行更加快速,演示DIY Spring Boot 框架时,如何配置端口号,如何添加日志. Spring Boot 框架帮助开发者更容易地创建基于Spring的应用程序和 ...