Python 爬取百度网盘所有热门分享文件

时间:2024-03-14 21:31:38

今天浏览微信公众号,看到一篇关于Python爬虫的文章,很有意思,动手实现了一下作者的实验,下面是详细的实现步骤:

  1. 运行环境:
    1. MySQL
    2. Python2.7
    3. MySQL-Python
  2. 创建数据库
    创建名为’pan’的数据库,编码设为’utf-8’。

    Python 爬取百度网盘所有热门分享文件

    然后导入’pan.sql’,完成表的创建。

    Python 爬取百度网盘所有热门分享文件

    数据库里已经创建了需要用到的表。

    Python 爬取百度网盘所有热门分享文件

  3. 设置连接数据库的账号密码
    打开‘bin/spider.py’,修改MySQL数据库账号密码相关信息。

    Python 爬取百度网盘所有热门分享文件

  4. 运行爬虫
    如果你是第一次部署,需要运行下面的命令完成做种,也就是抓取百度云热门分享用户的相关信息:
    python spider.py –seed-user

    Python 爬取百度网盘所有热门分享文件

    从上面的用户信息开始开始入手爬取数据,此时爬虫开始工作:
    python spider.py

    Python 爬取百度网盘所有热门分享文件

  5. 使用数据库保存的数据打开资源
    打开数据库share_file表

    Python 爬取百度网盘所有热门分享文件

    其中title是资源的名称,shorturl是资源的短网址
    比如:“布施知子.-.Boxes.and.Fuses.pdf”shorturl为‘1i3Kginr’
    拼上百度网盘的地址‘https://pan.baidu.com/s/
    https://pan.baidu.com/s/1i3Kginr

    Python 爬取百度网盘所有热门分享文件

  6. 完美实现!后面可以针对数据库做相关条件的查询、处理等实现自己想要的功能。

  7. 向大神致敬!

文章地址:http://mp.weixin.qq.com/s/nJP0arixx9v3Xtu_VDpqyg
代码地址:https://github.com/x-spiders/baiduyun-spider