【文件属性】:
文件名称:JobSpiders:scrapy框架爬取51job(scrapy.Spider),智联招聘(扒接口),拉勾网(CrawlSpider)
文件大小:16.83MB
文件格式:ZIP
更新时间:2021-05-17 06:59:58
python3 scrapy spiders lagou crawlspider
基于Scrapy框架的Python3就业信息Jobspiders爬虫
Items.py : 定义爬取的数据
pipelines.py : 管道文件,异步存储爬取的数据
spiders文件夹 : 爬虫程序
settings.py : Srapy设定,请参考
scrapy spider
爬取三大知名网站,使用三种技术手段
第一种直接从网页中获取数据,采用的是scrapy的基础爬虫模块,爬的是51job
第二种采用扒接口,从接口中获取数据,爬的是智联招聘
第三种采用的是整站的爬取,爬的是拉钩网
获取想要的数据并将数据存入mysql数据库中,方便以后的就业趋势分析
实现功能:
从三大知名网站上爬取就业信息,爬取发布工作的日期,薪资,城市,岗位有那些福利,要求,分类等等,并将爬到的数据存到mysql数据库中
使用教程:
运行前需要安装的环境
Python3 Ubantu16.04自带,sudo ap