Python-S9-Day125-Web微信&爬虫框架之scrapy

时间:2022-06-06 22:53:09
  • 01 今日内容概要

  • 02 内容回顾:爬虫

  • 03 内容回顾:网络和并发编程

  • 04 Web微信之获取联系人列表

  • 05 Web微信之发送消息

  • 06 为什么request.POST拿不到数据

  • 07 到底使用json还是data?

  • 08 Web微信之接收消息

  • 09 上述内容总结

  • 10 scrapy安装

  • 11 scrapy基本命令

  • 12 scrapy示例:获取抽屉新闻

  • 13 scrapy创建下载任务

  • 14 今日作业

01 今日内容概要

1.1 Web微信;

  1.1.1 获取联系人列表;

  1.1.2 发送消息;

1.2 爬虫框架之scrapy(用的多,神箭手工具);

  12.1 大而全的Web框架;类比于Django或Flask;

02 内容回顾:爬虫

2.1 第一部分:爬虫

  2.1.1 requests和bs4基础

  2.1.2  web知识

  • 请求和请求
  • 携带常见请求头——User-Agent\referer\host\content-type\cookie
  • csrf_token——两个tab打开的同时,其中一个tab诱导我们对另外一个tab提交数据;

  2.1.3 分析http请求——Chrome浏览器、FireFox浏览器;

  2.1.4 爬虫的套路-汽车之家、抽屉、抽屉登录、github、拉钩、Web微信;

  • XML-数据交换;配置文件;

03 内容回顾:网络和并发编程

3.1 OSI七层模型

3.2 三次握手和四次挥手

3.3 TCP和UDP的区别

3.4 路由器和交换机的区别

3.5 ARP协议

3.6 DNS解析

3.7 HTTP和HTTPS

3.8 进程、线程和携程

3.9 GIL锁

3.10 进程如何进程共享

04 Web微信之获取联系人列表

05 Web微信之发送消息

06 为什么request.POST拿不到数据

07 到底使用json还是data?

08 Web微信之接收消息

09 上述内容总结

9.1 Goal:锻炼分析HTTP请求的能力;

10 scrapy安装

Python-S9-Day125-Web微信&爬虫框架之scrapy

10.1 在爬虫领域,是一个“大而全”的爬虫组件,涵盖了requests、bs4等组件的功能;

10.2 scrapy框架的安装

  • windows——下载Twisted文件;pip3 install pywin32 ; pip3 install wheel
  • Linux|Unix下的安装pip3 install scrapy;

11 scrapy基本命令

11.1 Django创建Django项目

  • 创建项目django-admin startproject HelloDjango
  • cd HelloDjango
  • 创建应用python manage.py startapp app01
  • python manage.py startapp app02
  • 启动项目python manage.py runserver

11.2 Scrapy的基本命令;

  • 创建项目 scrapy startproject HelloScrapy
  • cd HelloScrapy
  • scrapy genspider baidu baidu.com
  • scrapy genspider jd jd.com
  • scrapy crawl baidu

11.3 Scrapy的目录结构;

  • scrapy.cfg#主配置文件;
  • 项目名称HelloSrapy
  • __init__.py
  • items.py#定义爬取的数据结构
  • middlewares.py#定义爬取时候的中间件
  • pipelines.py#定义数据管道
  • settings.py#配置文件;
  • spiders目录#存放spiders的文件夹;
  • __init__.py

12 scrapy示例:获取抽屉新闻

13 scrapy创建下载任务

14 今日作业

14.1 小结;

  • HTML解析:xpath
  • 再次发起请求:yield Request对象;

Python-S9-Day125-Web微信&爬虫框架之scrapy的更多相关文章

  1. 06 爬虫框架:scrapy

    爬虫框架:scrapy   一 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前S ...

  2. 九、爬虫框架之Scrapy

    爬虫框架之Scrapy 一.介绍 二.安装 三.命令行工具 四.项目结构以及爬虫应用简介 五.Spiders 六.Selectors 七.Items 八.Item Pipelin 九. Dowload ...

  3. 洗礼灵魂,修炼python(72)--爬虫篇—爬虫框架:Scrapy

    题外话: 前面学了那么多,相信你已经对python很了解了,对爬虫也很有见解了,然后本来的计划是这样的:(请忽略编号和日期,这个是不定数,我在更博会随时改的) 上面截图的是我的草稿 然后当我开始写博文 ...

  4. 爬虫框架之Scrapy

    一.介绍 二.安装 三.命令行工具 四.项目结构以及爬虫应用简介 五.Spiders 六.Selectors 七.Items 八.Item Pipelin 九. Dowloader Middeware ...

  5. 基于Python + requests 的web接口自动化测试框架

    之前采用JMeter进行接口测试,每次给带新人进行培训比较麻烦,干脆用python实现,将代码和用例分离,易于维护. 项目背景 公司的软件采用B/S架构,进行数据存储.分析.管理 工具选择 pytho ...

  6. 爬虫框架:scrapy

    一 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可 ...

  7. 爬虫框架之Scrapy(一)

    scrapy简介 scrapy是一个用python实现为了爬取网站数据,提取结构性数据而编写的应用框架,功能非常的强大. scrapy常应用在包括数据挖掘,信息处理或者储存历史数据的一系列程序中. s ...

  8. 爬虫框架之Scrapy(四 ImagePipeline)

    ImagePipeline 使用scrapy框架我们除了要下载文本,还有可能需要下载图片,scrapy提供了ImagePipeline来进行图片的下载. ImagePipeline还支持以下特别的功能 ...

  9. 爬虫框架之Scrapy(三 CrawlSpider)

    如何爬取一个网站的全站数据? 可以使用Scrapy中基于Spider的递归方式进行爬取(Request模块回调parse方法) 还有一种更高效的方法,就是基于CrawlSpider的自动爬取实现 简介 ...

随机推荐

  1. 【Html 学习笔记】第二节——文本格式

    上一节基本已经了解了一些html的基础,这一节主要学习html处理文本相关内容,直接看内容吧. 字体: 预格式文本:<pre> 地址:<address> 缩写:<abbr ...

  2. Swift学习--闭包中的懒加载&lpar;四&rpar;

    class ViewController: UIViewController { //格式:定义变量时前使用lazy来修饰变量,后面通过等到赋值一个闭包 // 注意点:1.必须是用var 2.闭包后面 ...

  3. Winform知识

    文档界面 分类: 1.单文档界面应用程序(SDI) 特点: 1.应用程序中SDI的所有窗体都彼此独立 2.多文档界面应用程序(MDI) 特点: 1.每个应用程序中只能有一个MDI父窗体,在父窗体中可以 ...

  4. 转载-Python学习笔记之文件读写

    Python 文件读写 Python内置了读写文件的函数,用法和C是兼容的.本节介绍内容大致有:文件的打开/关闭.文件对象.文件的读写等. 本章节仅示例介绍 TXT 类型文档的读写,也就是最基础的文件 ...

  5. node 上传文件 路径 重命名等问题

    最近在学习node,想做一个简单的网站.首先想到的是上传文件的功能,查了下,发现有一个formidable模块,操作方便,便拿来尝试了一下,结果很纠结. 下载安装的就不用说了,用npm即可.说一下,自 ...

  6. Hadoop技巧(04):简易处理solr date 时区问题

    阅读目录 序 创建collection 模拟程序 示例下载 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的, ...

  7. &lbrack;POJ1088&rsqb; 滑雪&lpar;递归dp&rpar;

    Description Michael喜欢滑雪百这并不奇怪, 因为滑雪的确很刺激.可是为了获得速度,滑的区域必须向下倾斜,而且当你滑到坡底,你不得不再次走上坡或者等待升降机来载你.Michael想知道 ...

  8. Jdk1&period;6 JUC源码解析&lpar;6&rpar;-locks-AbstractQueuedSynchronizer

    功能简介: AbstractQueuedSynchronizer(以下简称AQS)是Java并发包提供的一个同步基础机制,是并发包中实现Lock和其他同步机制(如:Semaphore.CountDow ...

  9. redux 简介

    概述 Redux 本身是个极其简单的状态管理框架, 它的简单体现在概念少, 流程明确. 但是, 正是因为简单, 使用上没有强制的约束, 所以如果用不好, 反而会让状态管理更加混乱. 我觉得, 用好 R ...

  10. eclipse 远程调试程序

    最近遇到一个非常恶心的问题,本地调试没有问题,到了线上就复发,逼于无奈只能使用eclipse远程调试,下面把步骤记录一下: 1.修改服务器的启动脚本,添加如下内容: export JPDA_ADDRE ...