Python数据分析与挖掘实战(Pandas,Matplotlib常用方法)

时间:2021-01-05 23:39:39

操作系统:Windows
Python:3.5
欢迎加入学习交流QQ群:657341423


上节讲到数据分析和挖掘需要的库,其中最主要的是Pandas,Matplotlib。
Pandas:主要是对数据分析,计算和统计,如求平均值,方差等。
Matplotlib:主要结合Pandas生成图像。两者往往结合使用的。


Pandas:
Python数据分析与挖掘实战(Pandas,Matplotlib常用方法)
上图中针对的是对象为DataFrame或者Series
对于DataFrameSeries区别,参考一下官网说明就知道该数据结构了。
回归到上图的使用方法
Python数据分析与挖掘实战(Pandas,Matplotlib常用方法)
Python数据分析与挖掘实战(Pandas,Matplotlib常用方法)
Python数据分析与挖掘实战(Pandas,Matplotlib常用方法)
解释:
读取excel里面的数据,然后生成data数据。然后过滤一下数据,这个过滤可有可无,然后直接使用data.describe()即可。因为对象data是DataFrame格式。
如果使用其他方法,data.sum(),data.var()即可得出,如下
Python数据分析与挖掘实战(Pandas,Matplotlib常用方法)

这里只是给出其他统计方式,如果还需要其他数据,如极差,四分位数间距这些,需要计算得出。这里可以这样:
Python数据分析与挖掘实战(Pandas,Matplotlib常用方法)
解释:
statistics是为data.describe(),不能直接是data。

statistics.loc['aa'] = statistics.loc['75%']-statistics.loc['25%'] #四分位数间距

statistics.loc[‘aa’]是可以自定义名称的。也就是我们常说的新增统计数据。

Pandas累积统计特征函数
Python数据分析与挖掘实战(Pandas,Matplotlib常用方法)
用法:
Python数据分析与挖掘实战(Pandas,Matplotlib常用方法)
结果:
Python数据分析与挖掘实战(Pandas,Matplotlib常用方法)
这里是统计2行的和,因为和我设置window=2相关的。你会发现第一个数是NaN的,因为第一行不够2行,无法累加。


Matplotlib作图:
Python数据分析与挖掘实战(Pandas,Matplotlib常用方法)

在作图之前,基本上都要做一些设置:
import matplotlib.pyplot as plt #导入图像库
plt.rcParams[‘font.sans-serif’] = [‘SimHei’] #用来正常显示中文标签
plt.rcParams[‘axes.unicode_minus’] = False #用来正常显示负号
plt.figure(figsize=(7,5)) #建立图像,创建图像区域,figsize=(7,5)指定比例
默认比例可以为:plt.figure()

如果结合Pandas使用,用法
data.plot(kind=’bar’)
kind参数作用指定作图类型,line(线),bar(条形),barh、hist(直方图),box(箱线图),kde(密度图),area、pie(饼图)、scatter(散点图)
data为DataFrame或Series。
基本上Pandas,Matplotlib两者结合作图都是这种方法。
例子:
Python数据分析与挖掘实战(Pandas,Matplotlib常用方法)
Python数据分析与挖掘实战(Pandas,Matplotlib常用方法)
这个是通过excel数据生成图形。
如果是饼图
Python数据分析与挖掘实战(Pandas,Matplotlib常用方法)

参考资料
参考资料源文件


如果Matplotlib要单独使用,用法和上述又不一样了。
参考