拉勾数据分析岗数据分析报告.pdf

时间:2022-12-23 22:42:27
【文件属性】:
文件名称:拉勾数据分析岗数据分析报告.pdf
文件大小:197KB
文件格式:PDF
更新时间:2022-12-23 22:42:27
文档资料 拉勾数据分析岗数据分析报告 简介:试着,做了⼀个拉勾⽹数据分析师职位的数据分析。 其实,虽然很想做数据分析师,但是是跨⾏,⼼⾥相当忐忑,做这个分析就相当于加深⾃⼰对数据分析这个⾏业的了解了。 ⼤致思路 ⼤致思路 起始 起始 数据来源 数据来源 本来是想⾃⼰写个爬⾍的,可是学了好久,还是不能融会贯通,总会出⼀些bug,只能继续学习,争取早⽇修成爬神功。⼜想着,总不能还 没开始,就结束了这次实验。最后⽆意中发现了⼀个爬⾍⼯具--⼋⽖鱼、、只需要点点点(其实,当时有种挫败感)。不过,总算数据总算 有了。 过程 过程 数据的清洗与处理 数据的清洗与处理 这⾥试着⽤了两种⼯具,Excel + Python,也⽐较了⼀下⼆者的优点。与前⼈所述基本⼀致,纸上得来终觉浅啊。 想说⼀下字段的命名,如果⽤了Python进⾏处理的话,最好还是把字段命名为英⽂,或者说字母。可以简化后期处理,会⽅便很多。 当然,你如果全⽤Excel是⽤中⽂命名,也是没有问题的。 Excel的处理过程 的处理过程 预防万⼀ 预防万⼀ 所谓预防万⼀,就是将Excel另存⼀份源数据,以免后期发⽣不可预知错误。 清洗与处理 清洗与处理 命名字段 命名字段 处理 处理salary列 列 新建⼯作表,将salary字段复制过来。 1. 清除所有格式。 2. 数据-分列-固定符号-"-" 3. 查找替换 k。这⾥说明下,清除格式后,⽆论查找⼤写K还是⼩写k,均可。 4. 因为抓取的数据是⼀组区间值,⽆法直接使⽤,因此取薪资的中间值也就是平均值。使⽤函数 'MEDIAN' ,它会返回⼀组数的中值, 或者使⽤ 'AVERAGE' 也可。得到的值如下: 5. 再对这组值进⾏数据分析,数据-数据分析-描述统计,得到最⼤值,最⼩值,全距,再根据公式计算组数,组距,进⾏数据分组,再根 据 ' FREQUENCY '函数计算每组频率。 接下来,就可以绘制图表了。 ps:或者直接在第5步,采⽤数据分析⼯具中的直⽅图,进⾏分析。 处理 处理experience、 、city、 、education、 、property、 、scale列 列 新建⼯作表,复制。 1. 清除所有格式。 2. 使⽤函数 'SUBSTITUTE' 替换所有 "/",或者直接查找替换。 3. 数据透视表统计,绘图。 处理 处理field列 列 新建⼯作表,复制。 1. 清除所有格式 2. 查找替换"、",","为半⾓","。 3. 分列。 这样,基本就处理完了。 数据展⽰ 数据展⽰ ⾏业及职位数量 ⾏业及职位数量 从图中可以看出,17个⾏业中,移动互联⽹对数据⼈才的需求量是最⼤的,其次是⾦融和电⼦商务,⽽⽣物服务、⽂化娱乐、旅游、分类 信息、硬件等的需求量最少。我认为,这从⼀个侧⾯反映了移动互联⽹数据量的巨⼤,以及对⼈才的渴求。 城市与职位 城市与职位 ⾸先看⼀下,职位主要分布的区域: 从图中可以看到,招聘公司主要位于南⽅。 再看⼀下,城市与职位: 这⾥主要截取了前10个城市,毫⽆意外,北上⼴赫然在列,杭州也很多,排在⼴州前⾯。看来,我们这些想做数据分析师的⼈,都⽆法逃 离北上⼴啊。嗯,你也可以去杭州,据在那⼉⽣活了七⼋年的同学来说,他不想⾛了。 ⾏业、城市与薪资 ⾏业、城市与薪资 前⾯数据处理得到了每个职位的平均薪资,这⾥进⼀步处理得到了每个⾏业在每个城市的平均薪资。下图是招聘最多的⼏个⾏业在每个城市 的平均薪资。 从图中可以知道,整体上相对来说,⼴州在这些⾏业中属于较低的。北京、上海差距不是太⼤。 招聘公司融资阶段 招聘公司融资阶段 招聘不同职称的数量 招聘不同职称的数量 这⾥借助python进⾏了统计: python import pandas as pd data = pd.DataFrame(pd.read_csv(r'C:\Users\sunshine\Desktop\2017.8.20.csv',encoding = 'gbk')) data.columns positionName = [] for i in range(len(data.position)): if "实习" in data.position[i]: positionName.append("实习") elif "助理" in data.position[i]: positionName.append("助理") elif "专员" in data.position[i]: positionName.append("专员") elif "主管" in data.position[i]: positionName.append("主管") elif "经理" in data.position[i]: positionName.append("

网友评论