人工智能必备数学基础：概率论与数理统计（1）

如果需要小编其他数学基础博客，请移步小编的GitHub地址

　　传送门：请点击我

　　如果点击有误：https://github.com/LeBron-Jian/DeepLearningNote

　　这里我打算再补充一下关于概率论与数理统计的基础。

　　（注意：目前自己补充到的所有知识点，均按照自己网课视频中老师课程知识点走的，同时一些公式是网友辛辛苦苦敲的，这里用到那个博客均在文末补充地址，不过这里首先表示感谢！！）

1，基本概念

1.1 随机试验的概念

　　在自然界的现象中，分为必然现象和随机现象。随机现象在相同的条件下，大量重复试验中呈现出的规律性称为统计规律性。

　　随机试验：对随机现象所作的观察，测量等试验统称为随机试验，简称试验，用E表示。

　　随机试验有如下特点：

1，可以在相同条件下重复进行
2，所有可能结果不止一个，且事先已知
3，每次试验总是出现可能结果之一，但出现哪一个，试验前还不能确定

1.2 样本点，样本空间，随机事件的概念

　　基本事件（又称样本点）：指随机试验的每一个可能结果，用 e 表示。

　　样本空间：基本事件或样本点的全体构成的集合，用 S 表示。

　　样本点与样本空间的关系：

　　这里需要注意的是，条件概率的样本空间：

　　随机事件：样本空间 S 的某个子集A，称为随机事件，简称事件 A。当且仅当 A 中某个样本点出现，称为 A 发生。事件 A 可以用语言表示，也可以用集合表示。

　　必然事件：样本空间 S 包含所有的基本事件，故在每次试验中都发生，因此称为必然事件。

　　不可能事件：Ø 不包含任何基本事件，故在每次试验中不发生因此称为不可能事件。

　　下面举个例子

1.3 概率与频率

　　概率论中，频率和概率的概念是很重要的，两者既有联系也有本质的不同，有必要专门区分一下。

　　对于一个不确定事件发生的可能性大小，我们希望找到一个合适的数来表征它。而为了引出这个表示不确定事件可能性大小的数，我们引入频率来给概念。简单来说就是引入频率来引出概率。

　　频率：描述的是事件发生的频繁程度。严格的定义是：在相同的条件下，进行 n 次试验，事件 A 发生的次数Na 称为事件 A 的频数，比值 Na/n 称为事件 A 发生的频率。显然知道频率是属于 [0, 1]的。

　　概率：设 E 是随机试验（一定是要随机的），S是样本空间（就是可能出现的每种情况），对于 E 的每个事件 A 赋予一个实数，记做 P(A)，称为事件 A 的概率，如果集合函数P(*) 满足以下条件：

1，非负性：P(A) ≥ 0
2，规范性：对必然事件S，有 P(S) = 1
3，可列可加性：对于两两互不相容事件，或事件的概率 = 各单独事件的概率之和

　　实际上，在还没有概率这个概念的时候，大量的重复试验表明，随着重复次数 n 的逐渐增大，某事件 A的频率会呈现出稳定性，逐渐趋于某个常数，这种“频率稳定性”是通常所说的统计规律性。而这个常数就是可以描述事件可能性大小的概率，就是概率定义中的赋予的实数。后来出现的概率的概念，是因为在实际中，我们不可能对每一个事件都要做大量的实验，然后通过频率稳定性来求概率。

　　总结一下：概率表示某事件出现的可能性大小，最初通过频率稳定性来引出与求得。

　　举个例子：比如上面提到的抛硬币事件，当抛硬币次数分别为5， 50， 500次，我们分别做10组实验，我们很明显的发现，当次数越多时，频率趋于稳定，为0.5左右。

1.4 为什么要使用概率呢？

　　概率论是用于表示不确定性陈述的数学框架，即它是对事物不确定性的度量。

　　在人工智能领域，我们主要以两种方式来使用概率论。首先，概率法则告诉我们AI系统应该如何推理，所以我们设计一些算法来计算或者近似由概率论导出的表达式。其次，我们可以用概率和统计从理论上分析我们提出的 AI 系统的行为。

　　计算机科学的许多分支处理的对象都是完全确定的实体，但机器学习却大量使用概率论。实际上如果你理解机器学习的工作原理你就会觉得这个很正常。因为机器学习大部分时候处理的都是不确定量或随机量。

　　在概率论中概率依其计算方式不同，可分为古典概率，试验概率和主观概率，下面学习一下。

2，古典概率与几何概率

　　古典概率通常又称事前概率，是指当随机事件中可能发生的结果及其出现的次数都可以由演绎或外推法得知，而无需经过任何统计试验即可计算各自可能发生结果的概念。

2.1 古典概率

　　关于古典概率是以这样的假设为基础的，即随机现象所能发生的事件是有限的，互不相容的，而且每个基本事件发生的可能性相等。我们称此试验为古典概率试验。

　　在古典概率下，事件 A 的概率定义为：

　　一般来说，如果在全部可能出现的基本事件范围内构成事件 A 的基本事件有 a 个，不构成事件 A 的事件有 b 个，则出现 A 的概率为：P(A) =a/(a+b)。

　　举个例子：一袋中有 8个球，编号为1~8，其中 1~3 号为红球，4~8 号为黄球，设摸到每一球的可能性相等，从中随机摸一球，记A = {摸到红球}，求 P(A)。

2.2 几何概率

　　几何概率是可以用几何方法求得的概率，向某一可度量的区域内投一质点，如果所投的点落在门中任意区域 g 内的可能性大小与 g 的度量成正比，而与 g 的位置和形状无关，则称这个随机试验为几何型随机试验或几何概率，此处的度量就是测量，一维指长度，二维指面积，三维指体积等。

　　样本点在空间区域中均匀分布的概率模型。此处试验的可能结果是欧几里得空间中的点，所有样本点的集合 Ω 是此空间中的一个几何图形，对于 Ω 的任何可测子集A，称：

　　P(A) 为事件 A的几何概率。

　　几何概型是一种概率模型，在这个模型下，随机试验所有可能的结果是无限的，并且每个基本结果发生的概率是相同的。例如一个人从家到单位的时间可能是8:00~9:00 之间的任意一个时刻；往一个方格中投一个石子，石子落在方格中任意一点，这些试验出现的结果都是无限多个，属于几何概型。一个实验是否为几何概型在与这个试验是否具有几何概型的两个特征——无限性和等可能性，只有同时具备这两个特点的概型才是几何概型。

　　面积示例：思考下面这种问题方式，不用从几何导代数，要依靠几何，从代数到几何。比如我们先定义了 x 和 y 点，都被特征化到了 0~60，很显然几何上就是一个正方形，然后互相只等 15 min，那就差的绝对值小于等于 15 就行了，然后根据这个画图即可。

　　角度示例：这个问题想出 x 和角度的取值范围都很简单，然后可以把他们转化为几何和代数，可以把 x 看做值域，角度看做定义域，这个图上就画出了一篇空间。然后建立一个满足要求的方程：方程的思想是针的中心点和边的距离 0 到某个方程，这样 x 的方程式就出来了。然后画在图上，积分求面积即可。

3，条件概率

3.1 条件概率的定义

　　很多情况下，我们感兴趣的是某个事件在给定其他事件发生时出现的概率，这种概率叫条件概率，表示为 P(A|B)，读作：在B的条件下A的概率。条件概率可用决策树进行计算，条件概率的谬论是假设P(A|B) 大致等于P(B|A)。

　　我们将给定 X=x 时 Y=y 发生的概率记为 P(Y=y | X=x) ，这个概率可以通过下面的公式来计算：

3.2 条件概率例题

　　例题1：

　　条件概率P(B|A) 的求解思路为：

　　因为已经知道事件A必须发生，所以只需要在 A发生的范围内考虑问题，即现在的样本空间为A，因为在事件A发生的情况下事件B发生，等价于事件A和事件B同时发生，即AB发生。

　　例题2：

　　例题3：

3.3 条件概率基本定理

　　独立性：设A，B为量随机事件，当且仅当两个随机事件 A 和 B 满足 P(A∩B) = P(A)P(B) 的时候，他们才是统计独立的，这样联合概率可以表示为各自概率的简单乘积。

　　同样，若 P(B|A) = P(B)，即 P(AB)=P(A)*P(B)，即 P(A|B) = P(A)，则称A， B 相互独立；

　　以及，若 P(A|B) = P(A)，即 P(AB)=P(A)*P(B)，即 P(B|A) = P(B)，则称A， B 相互独立；

　　换句话说，如果A和B是相互独立的，那么A在B这个前提下的条件概率就是A自身的概率，同样，B在A的前提下的条件概率就是B自身的概率。

　　互斥性：当且仅当 A 与 B 满足 P(A∩B) = 0 且 P(A)≠0，P(B)≠0 的时候，A与B是互斥的。因此，P(A|B)=0, P(B|A)=0，换句话说，如果B已经发生，由于A不能和B在同一场合下发生，那么A发生的概率为零；同样，如果A已经发生，那么B发生的概率为0。

　　举个例子：

4，一维随机变量

　　随机变量（random variable）表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关，都可以数量化，即都能用数量化的方式表达。随机变量可以是离散的或者连续的，按照随机变量可能渠道的值，可以把他们分为两种基本类型：离散型随机变量和连续型随机变量，下面一一学习。

4.1 一维离散型随机变量

　　离散型（discrete）随机变量即在一定区间内取值为有限个或可数个。例如某地区某年人口的出生数，死亡数，某药物治疗某病病人的有效数，无效数等。离散型随机变量通常依据概率质量函数分类，主要分为：伯努利随机变量，二项随机变量，几何随机变量和泊松随机变量。

　　定义：设X为离散型随机变量，它的一切取值可能为X1, X2,...Xn，记为：

　　称上式为X的概率函数，又称为X的概率分布，它本身是一个概率值，X是随机变量的取值。

　　比如我们来掷骰子，找到离散型随机变量 X的所有可能取值，则得到离散型随机变量取值的概率：

　　f(xi) = P(X=xi) 为离散型随机变量的概率函数。

　　对于离散型随机变量的概率分布有以下两个基本性质：

　　举个例子，假设我们有一批房子，那中介一天卖出的房源数量肯定是有限的：

　　就是说卖多少套房的概率均在我们的规划中，卖房子肯定是有限多个可能的，这样就可以画出售楼的概率分布。

4.2 一维连续型随机变量

　　连续型（continuous）随机变量即在一定区间内变量取值有无限个，或数值无法一一列举出来。例如某地区男性健康成人的身高值，体重值等。有几个重要的连续随机变量常常出现在概率论中，如：均匀随机变量，指数随机变量，伽马随机变量和正态随机变量。

　　密度：一个物体，我们如果问其中一个点的质量是多少？这该怎么求呢？由于这个点实在太小了，那么质量就为0了。但是其中的一大块是由很多个点组成的，这时我们就可以根据密度来求其质量了。

　　概率密度：对于连续型随机变量X，我们不能给出其取每一个值的概率也就是画不出来那个分布表，这里我们选择使用密度来表示其概率分布！

　　下面举个例子，假设我们有一组零件，由于各种因素的影响，其长度是各不相等的，如下：

　　所以我们考虑通过某个区域来求其概率分布，首先我们绘制其频率分布直方图，如下所示：

　　结合两个图来看，我们发现通过绘制频率分布直方图可以解决问题，虽然看起来有点粗糙，但当我们把样本数据增加，分组数也同时在增加，这样的轮廓是不是越来越细致，接近一条曲线，而这条曲线就是我们想要的。

　　连续型随机变量的定义：对于随机变量 X 的分布函数为 F(x)，若存在一个非负的可积函数 f(x)，使得对任意实数x有：

　　则称 X 为连续型随机变量，称 f(x) 为 X 的概率密度函数（Probability Density Function），简称概率密度或密度。

　　由其定义可知，连续型随机变量 X 的分布函数 F(x) 在 x 点的函数值等于其概率密度函数 f(x) 在区间（-∞, x] 上的积分。

　　概率密度函数用数学公式表示就是一个积分，也可以把概率形象的说成面积！

4.3 简单随机抽样

　　简单随机抽样也称为单纯随机抽样，纯随机抽样，SRS抽样，是指从总体N个单元中任意抽取 n 个单位作为样本，使每隔可能的样本被抽中的概率相等的一种抽样方法。

　　定义：一般的，设一个总体含有 N 个个体，如果通过逐个抽取的方法从中抽取一个样本，且每次抽取时各个个体被抽到的概率相等，则这样的抽样方法叫做简单随机抽样。

　　简单随机抽样的特点：

1，简单随机抽样要求被抽取的样本的总数个数N是有限的
2，简单随机抽样样本数 n 小于等于样本总体的个数N
3，简单随机抽样是从总体中逐个抽取的
4，简单随机抽样是一种不可放回的抽取
5，系统抽样抽样的每个个体入样的可能性均为 n/N

　　简单说就是：每个样本单位被抽中的概率相等，样本的每个单位完全独立，彼此间无一定的关联性和排斥性。

　　简单随机抽样是最基本的抽样方法，分为重复抽样和不重复抽样。在重复抽样中，每次抽中的单位仍然放回总体，样本中的单位可能不止一次被抽中。不重复抽样中，抽中的单位不再放回总体，样本中的单位只能抽中一次。

　　举个例子：

5，二维随机变量

5.1 二维随机变量的定义

　　以前我们只关心一个指标，现在要更操心了，例如根据学生的身高（X）和体重（Y）来观察学生的身体状况。这就不仅仅是X和Y各种的情况，还需要了解其互相的关系。

　　二维随机变量的定义：一般，设E是一个随机试验，它的样本空间 S={e}，设 X=X(e) 和 Y=Y(e)， S是定义在S上的随机变量，由他们构成一个向量（X, Y），叫做二维随机变量或二维随机向量。

　　二维随机变量的联合函数：若（X, Y）是随机变量，对于任意的实数x, y，有：

　　F(x, y) 表示随机点(X , Y) 在以（x, y）为顶点且位于该点左下方无穷矩阵内的概率。

　　用联合分布函F(x, y) 表示矩阵域概率：

　　二维随机变量的性质

5.2 二维离散型随机变量

　　若二维随机变量（X, Y）全部可能取到的不同值是有限对或可列无限对，则称（X, Y）是离散型随机变量。

　　离散型随机变量的联合概率分布为：设（X, Y）所有可能取值为（xi, yi）, i=1,2,....，称：

　　为二维离散型随机变量（X, Y）的联合概率分布。

　　例1：设随机变量 X 在1， 2， 3， 4四个整数中等可能的取一个值，另一个随机变量 Y 在1~X 中等可能地取一整数值，试求（X, Y）的联合概率分布。

　　（X=i, Y=j）的取值情况为：i=1,2,3,4；j 取不大于 i 的正整数

　　（X, Y）的联合概率分布为：

　　用图展示为：

5.3 二维连续型随机变量

　　二维随机变量（X， Y）的分布函数 F(x, y) 如果存在非负函数 f(x, y)，则对于任意x, y有：

　　则称（X, Y）为连续型的二维随机变量，f(x, y) 为其概率密度。

　　例1：设二维随机变量 (X, Y) 具有概率密度：

　　（1）求常数k

　　（2）求分布函数 F(x, y)

　　（3）求P(Y≤X)的概率

5.4 二维离散随机变量的边缘分布函数

　　对于离散型随机变量（X, Y），分布律为：

　　X， Y 的边缘分布律为：

5.5 二维连续随机变量边缘分布函数

　　定义：二维随机变量（X,Y）作为整体，有分布函数F(x, y)，其中X和Y都是随机变量，他们的分布函数记为：F_X(x), F_Y(y) 称为边缘分布函数。

　　在分布函数F(x, y) 中，令 y → +∞，就能得到 F_X(x)，如下：

　　同理可得：

　　概边缘分布：由联合分布函数可以得到边缘分布函数

5.6 连续型的边缘概率密度函数

　　对于连续型随机变量（X, Y），概率密度为 f(x, y)，则X， Y的边缘概率密度为：

　　事实上：

　　同理：

　　例1：

　　例2：

6，期望与方差

6.1 一维情况的期望

　　在概率论和统计学中，数学期望是实验中每次可能结果的概率乘以其结果的综合。它是最基本的数学特征之一，反映随机变量平均值的大小。

　　假设 X 是一个离散随机变量，其可能的取值有：{x1, x2, .....xn}，各个取值对应的概率取值为：P(x_k), k =1,2,3...n，则其数学期望被定义为：

　　假设 X 是一个连续型随机变量，其概率密度函数为 P(x)，则其数学期望被定义为：

　　例1：随机变量X满足于均匀分布，求其期望。

6.2 二维情况的期望

　　若（X, Y）~P(X=xi, Y=yi} = p_ij ，i,j=1,2,....,则Z=g(X, Y) 的期望为：

　　若二维连续型随机变量（X, Y）的概率密度为：z = g(x, y)，设：

　　绝对收敛，则有：

　　例1：

　　例2：

6.3 数学期望的性质

　　常见性质如下：

　　例1：

6.4 方差

　　数学期望反映了随机变量的取值水平，衡量随机变量相对于数学期望的分散程度则是另一个数学特征。

　　概率论中，方差用来衡量随机变量与其数学期望之间的偏离程度；统计中的方差为样本方差，是各个样本数据分别与其平均数之差的平方和的平均数，数学表达式如下：

6.5 协方差

　　在概率论和统计学中，协方差被用于衡量两个随机变量 X 和 Y 之间的总体误差，数学定义为：

7，大数定律与中心极限定理

7.1 大数定律

　　概率论历史上第一个极限定理属于伯努利，后人称之为“大数定律”。概率论中讨论随机变量序列的算术平均值向数学期望的算法平均值收敛的定理。

　　定义为：在随机事件的大量重复出现中，往往呈现几乎必然的规律，这个规律就是大数定律。通俗的说，这定理就是，在试验不变的条件下，重复试验多次，随机事件的频率近似于它的概率，即偶尔中包含着某种必然。

　　注意：小的样本试验不足以以偏概全是因为有一些局限性。

　　大数定理是一种描述当实验次数很大时所呈现的概率性质的定理。但是注意到，大数定理并不是经验规律，而是在一些附加条件熵经严格证明了的定理。他是一种自然规律因而通常不叫定理而是大数定律。而我们所说的大数定理通常是经过数学家证明以数学家名字命名的大数定理，如伯努利大数定理。

7.2 马尔科夫不等式

　　在概率论中，马尔科夫不等式给出了随机变量的函数大于等于某正数的概率的上界。马尔科夫不等式把概率关联到数学期望，给出了随机变量的累积分布函数一个宽泛但仍有用的界。

　　百度百科定义：设 X 为一非负随机变量，则 P(|X| ≥ a) ≤ E(|X|)/a。若用测度领域的术语来表示，马尔科夫不等式可表示为若（X, Σ, μ）是一个测度空间，f 为可测的扩展实数的函数，且 ε ≥ 0，则：

　　讲道理，死记硬背，好像没有用。学习了知乎大佬的解释，有一些明白：

　　马尔科夫不等式是这样写的（离散情况）：

　　其中 X ≥ 0

　　我们通过 μ = 1.3 ， σ = 0.25 的正态分布解释下，首先， P(X ≥ a) 就是指的是曲线下 X ≥ a 部分的面积：

　　来感受一下马尔科夫不等式：

　　可见，越大越平均值，概率越低。

　　下面写一下马尔科夫不等式的证明，不过不是很严格。

　　证明：

　　下面的正面虽然是用正态分布来演示的，但是实际上是与分布无关的。

　　之前我们说过，P(X ≥ a) 就是指的是曲线下 X ≥ a 部分的面积：

　　要扩大这部分面积很简单，就是让曲线 X ≥ a 的部分变 “高”一些，至于 X < a 的部分，怎么变化都没有关系，反正这部分和计算曲线没有关系：

　　很显然， P(X ≥ a) 是小于扩大后的面积的。

　　通过什么数学方式让 X ≥ a 的部分变得“高”一些呢？

　　根据下图：

　　我们很容易得到：

　　那问题就很简单了，乘上 X/a：

　　根据期望的定义有：

　　显然：

　　因此有：

　　综上，得到要证明的目标：

　　其中 X ≥ 0

7.3 切比雪夫不等式

　　切比雪夫不等式就是刻画事物偏离它本质的偏离程度的大小的概率。其实切比雪夫不等式是马尔科夫不等式的特殊情况，而且还进一步的关系：这两个不等式作者是师生关系（切比雪夫是马尔科夫的老师）。马尔科夫不等式可用来证明切比雪夫不等式。

　　在随机变量分布位置的情况下，我们只知道均值和方差，切比雪夫不等式给出了 x 落入均值为中心的 ε 邻域概率的概率范围。

　　切比雪夫不等式是这样写的：

　　其中 k >0， μ 是期望， σ 是标准差。

　　我们还是通过 μ = 1.3， σ = 0.25 的正态分布来感受一下切比雪夫不等式：

　　可见，越远离平均值，概率越低。

　　下面看一下切比雪夫不等式的证明，上面也说过需要通过马尔科夫不等式证明。

　　马尔科夫不等式是这样的：

　　我们把 |X - μ | 代入：

　　很显然等价于：

　　令 k = a / σ ，容易得到 k>0：

　　所以马尔科夫不等式、切比雪夫不等式只是对概率的一个估计，有可能不是很准确，但总比瞎想要准确。

7.4 中心极限定理

　　中心极限定理，是指概率论中讨论随机变量序列部分和分布渐进于整体分布的一类定理。这组定理是数理统计学和误差分析的理论基础，指出了大量随机变量近似服从正态分布的条件。它是概率论中最重要的一类定理，有广泛的实际应用背景。

　　样本的平均值约等于总体的平均值，不管总体是什么分布，任意一个总体的样本平均值都会围绕在总体的整体平均值周围，并且呈现正态分布。

　　中心极限定理描述的是一个实际的现象，有了这个定理就能解决很多问题了，比如我们可以描述对样本进行观察，得到总体的情况。

　　下面看一个例子

　　选取一个均匀分布 [0, 1]，它被称为均匀分布，因为在0~1之间选择值的概率相等，因此它的概率密度函数（PDF）是水平的直线。现在我们假设从这个分布中随机抽取20个样本（绿点）并计算这些样本的均值，我们得到一个值，在这个例子中是 0.5，用虚线表示。让我们把平均值画在直方图上。由于这个柱状图到目前为止只有一个平均值，它并没有告诉我们任何其他信息（左图）。继续从相同分布中提取更多的随机样本，计算各自的平均值并将这些平均值绘制在直方图上，我们开始得到一个有趣的结果。

　　随着我们从均匀分布中抽取越来越多的随机样本，并在直方图上绘制样本均值，我们得到一个正态分布结果如下（见右曲线）。

　　所以说：我们从均匀的数据分布开始，但是从中抽取的样本均值是正态分布。

　　例2：这次从中指数分布中提取样本

　　我们再将随机抽取 20个样本，计算样本的均值，并将其绘制在直方图上。计算 100 这样的均值并将其绘制在直方图上，这样的分布对我们来说并不陌生。样本均值是正态分布。

　　所以说：我们从指数分布开始，但从中抽取样本的均值得到正态分布。

　　因此中心极限定理意味着即使数据分布不是正态的，从中抽取的样本均值的分布也是正态的。

　　在分析领域，我们每天都会遇到各种各样的数据，而源数据的分布并不总是被我们所知道的，但是，因为我们了解中心极限定理，所以我们甚至不需要关系源数据的分布，因为我们总是可以得到正态分布。

　　为了使中心极限定理能够起作用，我们必须能够计算出样本的平均值。有一个分布较柯西分布，没有样本均值，从而中心极限定理并不适用于它。

　　可以通过此网站模拟中心极限定理的现象：http://onlinestatbook.com/stat_sim/sampling_dist/index.html

参考地址：https://zhuanlan.zhihu.com/p/25197792

https://baijiahao.baidu.com/s?id=1665261046335447411&wfr=spider&for=pc

https://baijiahao.baidu.com/s?id=1608791032601803539&wfr=spider&for=pc

https://blog.csdn.net/weixin_48619768/article/details/108139107

https://www.zhihu.com/question/27821324