scrapy 断点续爬

第一步：安装berkeleydb数据库

第二部：pip install bsddb3

第三部：pip install scrapy-deltafetch

第四部：

settings.py设置

SPIDER_MIDDLEWARES = { ‘scrapy_deltafetch.DeltaFetch’: 100 }

DELTAFETCH_ENABLED = True

DELTAFETCH_ENABLED = True #是否启用该中间件，我们在settings.py文件中进行配置

DELTAFETCH_DIR = '路径地址' #存储URL的路径

DELTAFETCH_RESET = 1 #是否清空数据库或者使用 scrapy crawl example -a deltafetch_reset = 1

重复爬取须重置缓存

命令：scrapy crawl meishi -a deltafetch_reset=1

秒客网