Python 微博爬取实战(一)爬虫参数:如何获得cookie,实现爬虫登陆爬取

时间:2024-03-19 19:51:57

如何在爬取时获得cookie参数呢,以chrome浏览器为例子,演示爬取微博评论时如何获取cookie
在微博未登陆时,可以查看某个话题下对应的微博,以某个话题举例:
Python 微博爬取实战(一)爬虫参数:如何获得cookie,实现爬虫登陆爬取
点击评论区后,发现只能展示一页评论,想要翻页必须进行账号登陆:
Python 微博爬取实战(一)爬虫参数:如何获得cookie,实现爬虫登陆爬取

发现登陆微博账号后,可以进行翻页了,如果要用爬虫爬取微博下面的所有评论怎么做呢,首先得获得自己的cookie,下面按步骤详细说明:

1.登陆自己的微博账号(这个就不需要细说了)

2.右击屏幕,选择检查
Python 微博爬取实战(一)爬虫参数:如何获得cookie,实现爬虫登陆爬取

3.按照图片上红色的1,2按顺序分别点击操作
Python 微博爬取实战(一)爬虫参数:如何获得cookie,实现爬虫登陆爬取
4.刷新网页
这个地方的“检查”和抓包非常相似,就是收集保持监听期间浏览器和网络之间交互的所有文件,并展示在下方。当保持监听后,需要将评论区继续下滑一页,以让监听文件出现(如果下滑后清空了监听文件,刷新即可)
点击XHR(如果XHR里面没有找到含cookie的文件,有极少数情况可以在旁边的Doc栏目里面找到),然后选择hearders,hearders字面意思就是每个文件的头部
Python 微博爬取实战(一)爬虫参数:如何获得cookie,实现爬虫登陆爬取

5.查看每个文件的头部,可能含有多个包含cookie字样的参数,因为爬虫机器人只需要模拟登陆发送请求,所以不需要response的cookie(先request,后服务器发回response)
Python 微博爬取实战(一)爬虫参数:如何获得cookie,实现爬虫登陆爬取
6.找到cookie:
Python 微博爬取实战(一)爬虫参数:如何获得cookie,实现爬虫登陆爬取
这里我覆盖了自己的真实cookie,把cookie赋复制下来,放在request库的参数里,就可以实现爬虫登陆爬取啦

下一步将继续讲解如何爬取微博话题下的所有微博及评论