离散型随机变量,二项分布,泊松分布,几何分布(概统2.知识)

时间:2024-04-13 12:37:19

离散型随机变量,二项分布,泊松分布,指数分布,几何分布(概统2.知识)

1.0-1分布 。例如抛硬币,正面朝上设为1,反面朝上设为0
分布律为

结果随机变量X 1 0
概率 P p 1-p

2.二项分布
例如n次射击,每次只有射中与射不中两种结果,求n次射击恰好射中k次的概率。
设射中次数为随机数X,

二项分布就是独立事件n重伯努利试验,每次试验只有A发生与不发生两种结果,求n次试验中恰好发生k次的概率。

伯努利概型在前面博文已经写过,请参看前面博文:独立性,重复独立事件,伯努利概型(概统1)

P{X=k} = Cnkpkqnk,k=0,1,2,..n
q=1-p;
记为 X~B(n,p)

二项分布的最大k值问题,请看博文:计算二项分布最大值,二项分布推导泊松分布,几何分布(概统2.证明)


3.泊松分布
由前面二项分布,当n趋于无穷大,p又趋于0时,可以由二项分布推导出泊松分布。

3.1)泊松分布第一种:单位时间内发生的次数是常数,事件按固定的时间频率发生
为什么具有单位时间内平均发生次数特点的事件可以看做泊松分布? 、
理解方式:可以将”单位时间“无限分割,这样n等分就无限多,每个等分就无限小,无限小的时间事件发生的概率趋向于0,于是这就是一个{n,p0}
的问题,同时,n*p=单位时间平均发生次数=λ

例如, 某医院平均每小时出生3个婴儿,接下来1小时,至少出生2个婴儿的概率是多少?

设随机变量为X
P {X=k} =(λt)kk!eλt, k=0,1,2,…
其中λ表示单位时间内,发生结果的平均概率。

t是单位时间的倍数,如果t取1,公式就变成:
P {X=k} =(λ)kk!eλ, k=0,1,2,…

称X为服从参数为λ的泊松分布,记为 X~π(λ) ,或者 X~P(λ)

[例题3.1] - 某医院平均每小时出生3个婴儿,
1)) 接下来2小时,一个婴儿都不出生的概率是多少?
2)) 接下来1小时,至少出生2个婴儿的概率是多少?
3)) 接下来的15到30分钟,会有婴儿出生的概率是多少?
解:
1)) 满足事件按固定时间频率发生的条件。
P {X=k} =(λt)kk!eλt, k=0,1,2,…
接下来2小时:t=2
λ=发生频率=3,
一个婴儿都不出生:k=0,
P {X=0,t=2} =(32)00!e32 = e6 0.0025 = 0.25% ;
所以说,接下来2小时,一个婴儿都不出生的概率不到1%;

2)) 接下来1小时:t=1
λ=发生频率=3,
P{X>=2,t=1}=1-P{X=0,t=1}-P{X=1,t=1};

P{X=0,t=1} =(31)00!e31 = e3;
P{X=1,t=1} =(31)11!e31 = 3e3;
P{X>=2,t=1}=1-P{X=0,t=1}-P{X=1,t=1} = 1e33e3=14e3
0.800980
所以说接下来1小时,很大概率至少出生2个婴儿 。因为平均每小时出生3个婴儿,因此,接下来1小时里,最有可能发生的概率就是平均概率(就等于λ),也印证了后面一个问题:在泊松分布中,k取λ时,P{X=k}有最大值。

3)) 接下来的15到30分钟,会有婴儿出生的概率是多少?
有婴儿出生的概率=有1个到无限个的概率 ,用它的反面来计算,
有1个到无限个的概率 = 1 - 有0个出生的概率
P{X>=1} = 1 - P{X=0}
因为t的单位是小时,15分钟换算成小时=0.25小时,30分钟换算成小时=0.5小时
P{X=0,t=0.25} = (30.25)00!e30.25 = e30.25 ;
P{X=0,t=0.50} = (30.50)00!e30.50 = e30.50 ;
P{X>=1,t=0.25} = 1 - P{X=0,t=0.25} = 1 - e0.75 ;
P{X>=1,t=0.50} = 1 - P{X=0,t=0.50} = 1 - e1.5 ;
接下来的15到30分钟的时间段的概率=Px
=P(X>=1,t=0.5) - P(X>=1,t=0.25) = e0.75e1.5 = 0.2492%

3.2)泊松分布第二种:大数据样本,样本总数N很大,每个个体发生的概率p很小,N*p是一个常数,等于一段时间内平均总体发生次数

N*p = λ,N是个体数目,样本总数,p是每个个体发生的概率,每个个体发生的概率很小,比如机器故障,汽车路过路口时发生故障,λ就是一定时间内发生的总平均概率。

例如, 交通路口,高峰时段有1000辆车路过路口,每辆车出故障的概率为0.001 。

这些类型的实例是n很大,p很小,n*p等于一个常数,因此可以用泊松分布。

P {X=k} =(λ)kk!eλ, k=0,1,2,…
称X为服从参数为λ的泊松分布,记为 X~π(λ) ,或者 X~P(λ)

[例题3.2] 某交通路口,高峰时段有1000辆车路过路口,每辆车出故障的概率为0.0001,
1)) 求发生事故的概率分布。
2)) 求某段时间内同时发生两次以上事故的概率是多少?

解:
1)) 此题 n =1000, p=0.0001, n*p=0.1
符合n很大,p趋于0,n*p=λ ,所以X服从泊松分布
发生事故的概率分布律为
P{X=k} = λkk!eλ = 0.1kk!e0.1

2)) 某一段时间内发生两次以上的事故的概率,为两次到无限次的概率之和,
用减去0次和1次计算。
P{X>=2}=1-P{X=0}-P{X=1}
= 1 - 0.100!e0.1 -0.111!e0.1
= 1 - 1.1e0.1 = 0.0045

3.3)总结泊松分布适用情形,泊松分布的特征
泊松分布可看作是单位时间、单位面积或单位容积中颗粒数或某罕见事件发生数的概率分布

泊松分布的特征,见【概率论与数理统计.2.随机变量。应用】– 泊松分布的特征与应用

泊松分布的图形示意

离散型随机变量,二项分布,泊松分布,几何分布(概统2.知识)
离散型随机变量,二项分布,泊松分布,几何分布(概统2.知识)

由图形看出,泊松分布的特征:
1))泊松分布的图形只取决于平均数λ
2))当λ很小时,图形是很偏的,但当λ增大时,图形逐渐趋向正态,当λ=20时,泊松分布接近正态,当λ>50时,可以认为是正态分布。
3))由泊松分布的图形示例,可以看得出来,k值在λ附近时,概率最大,
k=λ,P{X=k}等于峰值**

3.4 )泊松分布公式与 自然数 的定义 e
参考前面博文【基础数学】–对自然数e的理解,e的证明,e的计算

ex = i=0(x)ii!
ex = 1+x+(x)22!+(x)33!+...+(x)n1n!
===
近似计算(e<4)的情况,e的指数越大,后面的项越大,越需要多项展开):
ex = 1+x+(x)22+(x)36+(x)424+(x)5120

=====
思考问题:
ex的泰勒级数展开多项式中,哪一项的值最大?
答案是:x等于多少就是哪项值最大,恰好第x项的值最大。
可以参考前面博文对自然数e的理解,e的证明,e的计算(基础)
物理意义:单位时间内事件发生的次数最大可能性就是平均概率。
===
比如x=1,第一项最大 x=1。
x=2: 第一项及第二项 都是最大(x)22=222=2
x=3,第三项 最大(x)36=336=4.73;
x=4,第四项 最大(x)424=4424=25624=12;
以此类推….

可以看到 λkk! 其实就是 eλ 的第k项。
也就是等于说,P{X=k}的概率,就是eλ 的第k项 的占比例。

泊松分布,P{X=k}的值,就是eλ 的第k项 的占比例, 那么 k=?时,P{X=k}最大? 从定义上说,λ 表示单位时间发生次数的平均数,或者表示 N*p 总共发生故障数。
从直观上理解,单位时间最有可能发生的次数当然是平均数,也就是 k = λ 时, P{X=λ} 取得最大值。

4.指数分布
网上所介绍的指数分布的引出,也是从泊松分布引申而来的,可以看做是泊松分布的特殊形态, 就是令X=0,事件一个都不发生,求P{N(t)}的分布
即: “求事件发生的时间间隔”
P{X=0, N(t)} = (λt)00!eλt=eλt

”在t 时间内出现一个以上的概率“
P{X>0, N(t)} = 1eλt;

比如前面的[例题3.1] ,关注第3))个问题,
3)) 接下来的15到30分钟,会有婴儿出生的概率是多少?
P{X>=1, 0.25< t<= 0.50} = (1-e1.5) - (1 - e0.7.5) =
e0.7.5 - e1.5 = 0.2492%

  • 泊松分布关注的问题是:t 时间内,发生k次的概率分布
    P{X=k, N(t)} = (λt)kk!eλt
    ===
  • 指数分布是泊松分布X=0的特殊项,关注的问题是: 事件发生的时间间隔
    P{X=0, N(t)} = (λt)00!eλt=eλt
    或者:在t 时间内,出现一个以上的概率
    P{X>0, N(t)} = 1eλt;

5.几何分布
几何分布也是从二项分布引申而来。实际背景是重复独立试验下首次成功的概率(n重伯努利试验,首次成功的 n 值)
举例:射击n次,首次射中时的n值。
有放回地抽取样品,首次抽到次品时的抽取次数。

几何分布公式(事件首次发生的n值分布):

P{X=n} = p(1p)n1

纪为 X~G(p)

二项分布到几何分布的推导见二项分布最大值,推导出泊松分布,几何分布((概统2.证明)