Python爬虫--简单爬取图片

时间:2022-09-19 09:04:38

今天晚上弄了一个简单的爬虫,可以爬取网页的图片,现在现在做一下准备工作。

需要的库:urllib 和 re

urllib库可以理解为是一个url下载器,其中有三个重要的方法 urllib.urlopen()和urllib.read()还有urllib.urlretrieve()这三个方法,具体使用可以在网上查到;re这个库提供对正则表达式支持.

我们要爬取的网页是:http://pic.yesky.com/496/33546996d_13.shtml   把美女筱崎爱给拔下来,其实关键就是要写出一个图片地址对应的正则表达式,下面是代码片段

# coding=utf-8

#页面下载器库
import urllib
#提供正则表达式的库
import re
#下载爬行页面函数
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html #得到图片
def getImg(html):
reg = r'src="(.+?\.jpg)"'
imgre = re.compile(reg) #compile方法把正则表达式编译成一个正则表达式对象
imglist = re.findall(imgre,html) #读取html中包含imgre的数据
x = 0
for imgurl in imglist:
urllib.urlretrieve(imgurl,'%s.jpg'%x)
x+=1 #爬取的图片地址格式 src="http://img1.imgtn.bdimg.com/it/u=326965152,678962023&fm=23&gp=0.jpg"
url = 'http://pic.yesky.com/496/33546996d_13.shtml'
html = getHtml(url)
getImg(html)