DoubanBookSpider:爬取豆瓣书籍信息，并持久化到mysql数据库下载

【文件属性】：
文件名称：DoubanBookSpider:爬取豆瓣书籍信息，并持久化到mysql数据库
文件大小：37KB
文件格式：ZIP
更新时间：2021-05-18 07:18:56
Python DoubanBookSpider 抓取豆瓣的书籍信息并持久化到mysql数据库这个爬虫的思路主要受@lanbing510 的启发，不同的是实现方面我自己用了requests库,持久化用了mysql，另外添加了日志模块logging。在应对豆瓣反爬虫方面，由于不想买收费代理，而我自己又是ADSL拨号上网，所以一旦检测到豆瓣返回403，就主动断开路由连接，重连获取新的ip。以下介绍一下思路和实现。一、爬虫思路及架构通过观察豆瓣网书籍的具体页面，我们可以发现，具体书籍网址的组成形式为：其中bookid为具体的数字。第一种思路是设定一个比较大的数字，然后从1到这个数字的范围之内去遍历所有数字对应的网址，但是我们可以发现，这些书的id往往非常大，基本都是百万级别的数字，一个个去撞库非常不现实。其实每本书都有很多标签，每个标签都汇集了同一类的所有书，要是可以获取到所有标签，然后根据这些标签

立即下载

【文件预览】：
DoubanBookSpider-master
----images()
--------框架.jpg(26KB)
--------流程.jpg(17KB)
----douban_tags.py(894B)
----init.sql(1KB)
----README.md(5KB)
----douban_books.py(11KB)

秒客网

DoubanBookSpider:爬取豆瓣书籍信息，并持久化到mysql数据库

网友评论

相关文章