Scrapy基础(七)————图片的简单下载

时间:2023-03-09 02:18:10
Scrapy基础(七)————图片的简单下载

scrapy 提供了自动下载图片到本地的功能,通过项目管道设置

: 在setting 文件中ITEM_PIPELINE添加: 'scrapy.pipelines.images.ImagesPipeline':1
1为处理顺序,顺序越小,越先处理;
 : 继续在setting中添加图片URL地址获取,
         IMAGES_URLS_FIELD = "front_image_url"    #front_image_url为Item 中存储图片URL的字段,应该为list类型;所以我们应将前面存入Item时设置为list

Scrapy基础(七)————图片的简单下载

    
  : 设置图片下载到本地的路径
              绝对路径:IMAGES_STORE = ""

相对路径: 多用相对路径,工程迁移后绝对路径不能使用了
              import os
              project_dir = os.path.abspath(os.path.dirname(__file__))

     #__file__ 是本文件,dirname(__file__)获取本文件名称,abspath("文件名")获取文件的所在路径     
              IMAGES_STORE = os.path.join(project_dir,'images')       #将两个路径连接起来

四:运行main.py 可见 在项目文件下新生成了images文件,并下载了图片,自动生成了图片名字

Scrapy基础(七)————图片的简单下载

五:扩展功能: 对图片进行过滤:

  在setting 文件中设置:

    IMAGES_MIN_HEIGHT = 100

    IMAGES_MIN_WIDTH = 100

  过滤掉宽度高度小于100的图片