第十四章 web前端开发小白学爬虫

老猿从事IT开发*十年了，接触互联网也很久了，但自己没有做过web前端开发，只知道与前端开发相关的一些基本概念，如B/S架构、html标签、js脚本、css样式、xml解析、cookies、http协议等，但并不熟悉这些概念的真正内容，可以说在web前端开发方面还是一个真正的小白。这导致老猿很有兴趣的投入爬虫学习后，发现网上别人的经验并不能完全适合自己的情况。

基于这种情况，老猿恶补了一些相关的知识，主要是http协议、cookies、html标记等相关的内容，可是看了之后，概念和知识都有了，但怎么用起来却还是不得要领。

老猿学爬虫最开始的动机是想解决在本机已经登录访问网站的情况下，怎么通过Python复用这个登录的信息去访问该网站。为什么非要复用这个信息呢？主要是现在很多网站都是通过第三方账号如微信授权登录，而老猿暂时没有去研究第三方账号授权登录的过程，就想直接使用已登录信息从而免去登录相关的开发。

为此老猿查了很多资料，网上提供的案例要么就是直接通过账号登录获取cookie信息保存、要么就是不登录直接爬取信息，与老猿的想法存在一些差距。为此不得基于学习的知识去进行各种尝试，最终终于弄明白怎么去使用这些知识。一旦明白了之后，就发现这个其实挺容易的，就象往外看隔了一张白纸，白纸没捅破前怎么也看不见，一旦知道白纸要捅破之后这个事情就非常容易了。

老猿不禁在想，网上那么多文章，怎么就找不到这方面介绍的文章。想来要么是大佬们觉得这个知识太白痴，懒得去说，要么就是前人们没想用老猿这种偷懒的方式去访问网站，直接模拟网站登录解决问题了，当然还有一个可能就是搜索引擎没有搜索到，老猿有一篇文章《Python正则表达式re.search(r’*{3,8}’,‘’)和re.search(’*{3,8}’,'’)的匹配结果为什么相同？》可能特殊符号太多通过标题或标题的部分内容去百度搜索却怎么也搜索不到该博文的内容。

零零散散、啰啰嗦嗦说了这么多，其实想说明的是要学爬虫还是需要一些前端开发的基础知识，以支持按自己一些独特的想法来爬取内容，基本没有可以完全复制的成功经验供你直接使用。但学爬虫对前端开发的了解不会要求很深，知道一些基本知识就可以了，老猿本章要介绍的内容是对前端开发小白们提供一个完整的爬虫学习之路，使得小白知道该按怎样的路线去实现自己定制的爬虫之路，而不是一个单纯的已有案例的实现。

本章准备介绍老猿推荐的网页爬虫的学习过程，最后以两种不同方式实现****博文进行点赞的案例。

本章内容如下：

第14.1节通过Python爬取网页的学习步骤

第14.2节 HTML知识简介

第14.3节使用google浏览器获取网站访问的http信息

第14.4节使用IE浏览器获取网站访问的http信息

第14.5节利用浏览器获取的http信息构造Python网页访问的http请求头

第14.6节 Python模拟浏览器访问网页的实现代码

第14.7节 Python模拟浏览器访问实现http报文体压缩传输

第14.8节 Python中使用BeautifulSoup加载HTML报文

第14.9节 Python中使用urllib.request+BeautifulSoup获取url访问的基本信息

第14.10节 Python中使用BeautifulSoup解析http报文：html标签相关属性的访问

第14.11节 Python中使用BeautifulSoup解析http报文：使用查找方法快速定位内容