【数据挖掘数学基础】02常用分布(中)

时间:2024-05-23 13:34:26

目录

二、正态分布

三、标准正态分布


二、正态分布

1、表示方法:N(μ,σ2)

2、正态分布是个神奇的分布,任何分布随着其*度或样本量增大,其最终都会服从正态分布。(正态分布是所有分布的终极状态)

3、概率密度函数:(f(x):概率密度,和概率是一回事,数据离散的时候叫概率,数据连续的时候叫概率密度)

【数据挖掘数学基础】02常用分布(中)

4、正态分布理解:

【数据挖掘数学基础】02常用分布(中)

  • 从上图看,横轴是变量的值,纵轴是概率密度,即事件发生的概率,事件发生概率有小有大,但不能是负数,所以概率密度函数在x上方,即f(x)>0;
  • 之前复习了数据分布偏态,如果数据对称分布, 那么均值、中心位数和众数都会是在一条线上,正态分布正是对称分布,正态曲线的最高点是均值μ,也是分布的中心位数和众数;
  • 正态分布是一个分布族,每一特定正态分布通过均值μ和标准差σ来区分;μ决定曲线的高度位置,σ决定曲线的平缓程度;
  • 曲线f(x)相对均值μ对称,尾端向两个方向无限延伸,且理论上永远不会和横轴相交;
  • 正态曲线下的总面积等于1;

例子:如何计算随机变量在某两点之间的概率p(a<x<b)?

【解答】我们可以用微积分的方法来解决这个问题,但正态分布的概率密度函数求导是很复杂的,如下图红色化简后的公式,为了简便,我们可以交给电脑计算,接下来我们可以应用一个函数,分布函数。

【数据挖掘数学基础】02常用分布(中)

5、正态分布的分布函数

【数据挖掘数学基础】02常用分布(中)

分布函数F(xo)表示的是在正态分布曲线中,x=xo左边的面积!这个函数结果我们可以查表得出,得到的是左边面积,具体应用会在标准正态分布详细讲解。

三、标准正态分布

1、正态分布是很多种,我们可以取一个特殊的正态分布来做研究。我们可以取期望(也可叫均值)为0,方差为1的正态分布命名标准正态分布。公式化简后:

【数据挖掘数学基础】02常用分布(中)【数据挖掘数学基础】02常用分布(中)

2、理解:标准正态分布最高点在均值0,且中位数和众数相同;因为我们已经设定好均值和方差,那么标准分布曲线的高度和宽度是确定的,所以它是唯一的,确定的。那么我们就可以制作出一个表,来查询标准正态分布概率值。

3、标准正态分布函数:

【数据挖掘数学基础】02常用分布(中)

其和正态分布一样,表示的是x=xo左边的面积。(离散数据求和符号Σ,定积分的本质是求连续数据的和,符号上图公式)

【练习】x~N(0,1),求p(1<x≤2),p(x<-1),p(|x|≤1.5),p(x>0.5)

【解答】由标准正态分布函数可得:Ф(xo)=p(x≤xo)

  • p(x<1)=Ф(1),p(x≤2)=Ф(2),我们可查表得:

【数据挖掘数学基础】02常用分布(中)

p(x<1)=Ф(1)=0.841345  p(x≤2)=Ф(2)=0.97725

因为查表结果所得是左边面积(概率),因此还要Ф(2)-Ф(1)=0.135905。最终得:p(1<x≤2)=0.135905

  • 同理可得,p(x>0.5)=1-p(x≤0.5)=1-Ф(0.5)=1-0.6915=0.3085
  • 因为数据曲线分布对称,因此p(x<-1)=p(x>1)=1-p(x≤1)=1-Ф(1)=0.1587
  • p(|x|≤1.5)=p(0≤x≤1.5)+p(-1.5≤x≤0)=p(-1.5≤x≤1.5)=p(x≤1.5)-p(x≤-1.5)=p(x≤1.5)-1+p(x≤1.5)=2p(x≤1.5)-1=2Ф(1.5)-1=0.86639

4、其他正态分布与标准分布的转换

一般的正态分布取决与均值μ和标准差σ,计算概率时,每个正态分布都有自己的正态概率分布表,这样的表格是无穷多的,若能将一般的正态分布转化为标准正态分布,那么计算概率就只需要查一张表即可。

任何一般正态分布N(μ,σ2),可通过下面的线性变换转化为标准正态分布。标准化公式:【数据挖掘数学基础】02常用分布(中)

【练习】一般正态分布情况,若x~N(1,22),求p(x≤2)。

【解答】由题可知,μ=1,σ=2,

转变公式:Z=(X-1)/2~N(0,1)

【数据挖掘数学基础】02常用分布(中)

得,P(X≤2)=Ф(0.5)=0.691462

【总结1】不等式中只需右边换算,左边不动。

【数据挖掘数学基础】02常用分布(中)

【数据挖掘数学基础】02常用分布(中)