爬虫入门到精通_实战篇11(使用代理处理反爬抓取微信文章)_PyQuery使用-1 目标

时间:2024-03-05 21:23:39

搜狗-微信这个网址来爬取微信的文章:
在这里插入图片描述
ps:登录后才能查看第10页之后的内容:
在这里插入图片描述
量翻页触发了网站的反爬虫措施,导致ip被封,需要进行解锁。
在这里插入图片描述
然而从doc中可以看到,请求失败的那页(状态码应该非200)被隐藏,只留下了状态码为200的这个验证页面。但是实际上,最后的那次请求返回状态码是302。

详情界面:
在这里插入图片描述