Python爬虫--简单爬取图片

今天晚上弄了一个简单的爬虫，可以爬取网页的图片，现在现在做一下准备工作。

需要的库:urllib 和 re

urllib库可以理解为是一个url下载器,其中有三个重要的方法 urllib.urlopen()和urllib.read()还有urllib.urlretrieve()这三个方法，具体使用可以在网上查到;re这个库提供对正则表达式支持.

我们要爬取的网页是:http://pic.yesky.com/496/33546996d_13.shtml 把美女筱崎爱给拔下来,其实关键就是要写出一个图片地址对应的正则表达式,下面是代码片段

# coding=utf-8

#页面下载器库

import urllib

#提供正则表达式的库

import re

#下载爬行页面函数

def getHtml(url):

    page = urllib.urlopen(url)

    html = page.read()

    return html

#得到图片

def getImg(html):

    reg = r'src="(.+?\.jpg)"'

    imgre = re.compile(reg) #compile方法把正则表达式编译成一个正则表达式对象

    imglist = re.findall(imgre,html) #读取html中包含imgre的数据

    x = 0

    for imgurl in imglist:

        urllib.urlretrieve(imgurl,'%s.jpg'%x)

    x+=1

#爬取的图片地址格式 src="http://img1.imgtn.bdimg.com/it/u=326965152,678962023&fm=23&gp=0.jpg"

url = 'http://pic.yesky.com/496/33546996d_13.shtml'

html = getHtml(url)

getImg(html)

秒客网

Python爬虫--简单爬取图片

相关文章