python应用:爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说

时间:2023-03-09 19:33:01
python应用:爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说

使用cmd创建一个scrapy项目:

  scrapy startproject project_name (project_name 必须以字母开头,只能包含字母、数字以及下划线<underscorce>)

  项目目录层级如下:

  python应用:爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说

声明Item

  声明我们可能用到的所有字段,包括管理字段等。管理字段可以让我们清楚何时(date)、何地(url server)及如何(spider)执行爬去,此外,还可以自动完成诸如使item失效、规划新的抓取迭代或是删除来自有问题的爬虫的item。

管理字段

Python表达式

url

response.url

例:‘http://www.baidu.com’

project

self.ettings.get('BOT_NAME')

例:‘crawl_novel’

spider

self.name

例:‘basic’

server

socket.gethostname()

例:‘scrapyserverl’

date

datetime.datetime.now()

例:‘datetime.datetime(2019,1,21……)’

 # -*- coding: utf-8 -*-

 # Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html import scrapy class CrawlNovelItem(scrapy.Item):
# Primary fields
title = scrapy.Field()
author = scrapy.Field()
classify = scrapy.Field()
recommend = scrapy.Field()
chapter_urls = scrapy.Field() # Calculated fields
chapter = scrapy.Field() # Housekeeping fields
url = scrapy.Field()
project = scrapy.Field()
spider = scrapy.Field()
server = scrapy.Field()
date = scrapy.Field()

编写爬虫并填充item

使用scrapy genspider 命令

  scrapy genspider -l         查看可用模板

  scrapy genspider -t         使用任意其他模板创建爬虫

  e.g.  scrapy genspider basic www         spiders目录中新增一个basic.py文件,并限制只能爬取www域名下的url

使用 scrapy crawl 命令运行爬虫文件

  e.g.  scrapy crawl basic          (basic是spider下的爬虫文件)

使用 scrapy parse命令用不同页面调试代码

  e.g. scrapy parse --spider=basic  http://www.……

使用scrapy crawl basic -o +文件名.文件类型  保存文件

  e.g. scrapy crawl basic -o items.json(items.csv、items.j1、items.xml)

basic.py

 # -*- coding: utf-8 -*-
import scrapy from crawl_novel.items import CrawlNovelItem class BasicSpider(scrapy.Spider):
name = 'basic'
allowed_domains = ['www']
start_urls = ['http://www.biquge.info/22_22559/'] def parse(self, response):
'''
self.log("title: %s" % response.xpath('//h1[1]/text()').extract())
self.log("author: %s" % response.xpath('//*[@id="info"]/p[1]/text()').extract())
self.log("classify: %s" % response.xpath('//*[@id="info"]/p[2]/text()').extract())
self.log("recommend: %s" % response.xpath('//*[@id="listtj"]//text()').extract())
self.log("chapter_urls %s" % response.xpath('//*[@id="list"]//a').extract())
'''
# 填充item
item = CrawlNovelItem()
item['title'] = response.xpath('//h1[1]/text()').extract()
item['author'] = response.xpath('//*[@id="info"]/p[1]/text()').extract()
item['classify'] = response.xpath('//*[@id="info"]/p[2]/text()').extract()
item['recommend'] = response.xpath('//*[@id="listtj"]//text()').extract()
     item['chapter_urls'] = response.xpath('//*[@id="list"]//a/@href').extract()
return item

清理——item装载器、添加管理字段,并对数据进行格式化和清洗

使用ItemLoader以代替那些杂乱的extract()和xpath()操作

使用MapCompose参数

使用lambda表达式

 # -*- coding: utf-8 -*-
import datetime
import socket
import urlparse import scrapy
from scrapy.loader import ItemLoader
from scrapy.loader.processors import MapCompose, Join from crawl_novel.items import CrawlNovelItem class BasicSpider(scrapy.Spider):
name = 'basic'
allowed_domains = ['www']
start_urls = ['http://www.biquge.info/22_22559/'] def parse(self, response):
# 定义装载器
l = ItemLoader(item=CrawlNovelItem(), response=response)
# 使用处理器
# 去除首位空白符,使结果按照收尾标题格式
l.add_xpath('title', '//h1[1]/text()', MapCompose(unicode.strip, unicode.title))
l.add_xpath('author', '//*[@id="info"]/p[1]/text()', MapCompose(unicode.strip))
l.add_xpath('classify', '//*[@id="info"]/p[2]/text()', MapCompose(unicode.strip))
# 将多个结果连接在一起
l.add_xpath('recommend', '//*[@id="listtj"]//text()', Join())
# 使用lambda表达式(以response.url为基础,将相对路径i转化为绝对路径)
l.add_xpath('chapter_urls', '//*[@id="list"]//a/@href', MapCompose(lambda i: urlparse.urljoin(response.url, i)))
# 添加管理字段
l.add_value('url', response.url)
l.add_value('project', self.settings.get('BOT_NAME'))
l.add_value('spider', self.name)
l.add_value('server', socket.gethostname())
l.add_value('date', datetime.datetime.now()) return l.load_item()

创建contract,检验代码可用性

使用scrapy check + 文件名 执行

  e.g. scrapy check basic

     def parse(self, response):
"""This function parses a property page. @url http://www.biquge.info/22_22559/
@returns items 1
@scrapes title author classify recommend chapter_urls
@scrapes url project spider server date
"""
# 定义装载器
l = ItemLoader(item=CrawlNovelItem(), response=response)
……