scrapy-redis在GitHub上的地址：点击这里

使用过程：

步骤一：在cmd中进行scrapy项目的创建：scrapy startproject example (注意：设置到这里就可以了）

步骤二：下载scrapy-redis在GitHub上面的文件：https://github.com/rmax/scrapy-redis#feeding-a-spider-from-redis

下载后把/src/scrapy_redis这个文件复制到步骤一刚刚创建的项目（example）目录下

步骤三：在项目的spiders文件夹下创建你的爬虫文件example_spider.py

步骤四：在该爬虫上进行常规设置：

from scrapy_redis.spiders import RedisSpider

class Examplespider(RedisSpider):
    name = 'example'
    redis_key = 'example: start_urls'

然后继续写你的代码，其他的和以往一样。

步骤五：爬虫写好后，在settings中添加

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 300
}

添加的这三处也是从GitHub中的用法

步骤六：可以在pycharm中打断点测试，会看到处于监听状态，如下：

2018-05-18 21:15:17 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023

步骤七：从cmd进入redis（redis-cli -h 127.0.0.1 -p 6379）

然后输入：

lpush examplespider:start_urls http://xxxx.com

所以是在cmd中输入你的start_urls 不像scrapy以往的方法在spider中直接添加url

秒客网

使用scrapy-redis 的具体步骤

scrapy-redis在GitHub上的地址：点击这里

相关文章