爬虫学习总结

时间:2022-09-05 11:03:47

1:接触的爬虫模块

     urllib ,request,selenium

2:robots协议:规定网页数据那些数据是否能爬去

    --requests模块没有语法对该协议生效

    --scrapy中有对该协议进行生效

3:如何解析验证码

    --图片验证吗,可以用numpy模块对图片进行处理。

    --文字验证码,可以使用云打码平台,打码兔等

4:解析数据方式

   正则,xpath,bs4

5:抓取动态页面

  --selenium

  --ajax 

6:接触的几种反爬机制:robots,UA,封ip,验证码,动态数据获取,tonken,数据加密

7:在scrapy接触爬虫类:spider,CrawlSpier,RedisSpider,RedisCrawlSpider

8:实现分布式爬虫:redis-scrapy

   RedisSpider,RedisCrawlSpider