scrapy 提供了自动下载图片到本地的功能，通过项目管道设置

一：在setting 文件中ITEM_PIPELINE添加: 'scrapy.pipelines.images.ImagesPipeline':1
1为处理顺序，顺序越小，越先处理；
二：继续在setting中添加图片URL地址获取，
IMAGES_URLS_FIELD = "front_image_url" #front_image_url为Item 中存储图片URL的字段，应该为list类型；所以我们应将前面存入Item时设置为list

Scrapy基础(七)————图片的简单下载

　　　　
三：设置图片下载到本地的路径
绝对路径：IMAGES_STORE = ""

相对路径: 多用相对路径，工程迁移后绝对路径不能使用了
import os
project_dir = os.path.abspath(os.path.dirname(__file__))

　　　　　#__file__ 是本文件，dirname(__file__)获取本文件名称,abspath("文件名")获取文件的所在路径
IMAGES_STORE = os.path.join(project_dir,'images') #将两个路径连接起来

四：运行main.py 可见在项目文件下新生成了images文件，并下载了图片，自动生成了图片名字

Scrapy基础(七)————图片的简单下载

五：扩展功能：对图片进行过滤：

　　在setting 文件中设置：

　　　　IMAGES_MIN_HEIGHT = 100

　　　　IMAGES_MIN_WIDTH = 100

　　过滤掉宽度高度小于100的图片

秒客网

Scrapy基础(七)————图片的简单下载

scrapy 提供了自动下载图片到本地的功能，通过项目管道设置

相关文章