使用scrapy-redis 的具体步骤

时间:2022-10-29 20:29:44

scrapy-redis在GitHub上的地址:点击这里

使用过程:

步骤一:在cmd中进行scrapy项目的创建:scrapy startproject example   (注意:设置到这里就可以了)

步骤二:下载scrapy-redis在GitHub上面的文件:https://github.com/rmax/scrapy-redis#feeding-a-spider-from-redis

             下载后把/src/scrapy_redis这个文件复制到步骤一刚刚创建的项目(example)目录下

步骤三:在项目的spiders文件夹下创建你的爬虫文件example_spider.py


步骤四:在该爬虫上进行常规设置:

from scrapy_redis.spiders import RedisSpider

class Examplespider(RedisSpider):
    name = 'example'
    redis_key = 'example: start_urls'

然后继续写你的代码,其他的和以往一样。

步骤五:爬虫写好后,在settings中添加

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 300
}

添加的这三处也是从GitHub中的用法

步骤六:可以在pycharm中打断点测试,会看到处于监听状态,如下:

2018-05-18 21:15:17 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023

步骤七:从cmd进入redis(redis-cli -h 127.0.0.1 -p  6379)

             然后输入:

lpush examplespider:start_urls http://xxxx.com  

所以是在cmd中输入你的start_urls  不像scrapy以往的方法在spider中直接添加url