人工智能数学基础--概率论

概率论
概率论与人工智能
• 概率论是研究不确定的学科。
• 概率论是现有许多人工智能算法的基础。现阶段的很多人工智能算法都是数据驱动的，且目的大多为了做预测或是作出更好的决策。如：
o 机器翻译中，如何检测你输入的语言种类。一种简单的方法就是把你输入的词或句子进行分解，计算各语言模型的概率，然后概率最高的是最后确定的语言模型。
o 用神经网络进行图像分类，网络的输出是衡量分类结果可信程度的概率值，即分类的置信度，我们选择置信度最高的作为图像分类结果。
o 混合高斯模型、隐马尔科夫模型等传统语音处理模型都是以概率论为基础的。

随机试验
• 满足以下三个特点的试验称为随机试验：
o 可以在相同的条件下重复进行。
o 每次试验的可能结果不止一个，并且能事先明确试验的所有可能结果。
o 进行一次试验之前不能确定哪一个结果会出现。
• 举例：
人工智能数学基础--概率论

样本点、样本空间、随机事件
• 样本点：一个随机试验所有可能结果的集合是样本空间，而随机试验中的每个可能结果称为样本点。
• 随机事件：随机试验的某些样本点组成的集合, 常用大写字母表示。
• 举例：
人工智能数学基础--概率论
随机变量
•
•

• 按照随机变量的可能取值，可分为：
o 离散随机变量：随机变量的全部可能取到的值是有限个或可列无限多个。如：某年某地的出生人数。
o 人工智能数学基础--概率论

分布律
• 对于离散随机变量，我们通常分布律来描述其取值规律。
• 人工智能数学基础--概率论
• 分布律也可以用表格的形式来表示：

特殊离散分布 -伯努利分布
• 人工智能数学基础--概率论
• 伯努利分布的分布律也可以写成：

• 伯努利分布主要用于二分类问题，可以用伯努利朴素贝叶斯进行文本分类或垃圾邮件分类。伯努利模型中每个特征的取值为1和0，即某个单词在文档中是否出现过，或是否为垃圾邮件。
• 人工智能数学基础--概率论

特殊离散分布 - 二项分布
• 二项分布是重复n次伯努利试验满足的分布。
• 人工智能数学基础--概率论

• 二项分布在NLP中使用得非常广泛，例如估计文本中含有“的”字的句子所占百分比，或者确定一个动词在语言中常被用于及物动词还是非及物动词。
• 人工智能数学基础--概率论
• n重伯努利试验：
• 每次实验都在相同的条件下重复进行。
•
• 每次试验的结果相互独立。

特殊离散分布 - 泊松分布

• 人工智能数学基础--概率论

• 人工智能数学基础--概率论
• 泊松分布用于描述单位时间内随机事件发生的次数。如一段时间内某一客服电话受到的服务请求的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数等。
• 图像处理中，图像会因为观点显示仪器测量造成的不确定性而出现服从泊松分布的泊松噪声，我们经常会给图像加泊松噪声用于图像的数据增强。

分布函数
• 实际生活中，我们通常不太关心取到某一点的概率，而是取到某一区间的概率。所以我们需要研究分布函数。
• 人工智能数学基础--概率论

•

连续型随机变量与概率密度函数
•
人工智能数学基础--概率论

特殊分布 - 正态分布
• 人工智能数学基础--概率论

• 在自然现象和社会现象中，大量随机变量都服从或近似服从正态分布。高斯分布是机器学习中最常用的分布，如：
• 图像处理中，我们可以给图像添加高斯噪声用于图像增强等任务。也可以用高斯滤波器去除噪声并平滑图像。还可以用混合高斯模型进行图像的前景目标检测。
• 在传统语音识别模型GMM-HMM（高斯混合模型-隐马尔科夫）中，高斯混合模型就是由多个高斯分布混合起来的模型。

图像的泊松噪声与高斯噪声
• 泊松噪声又称散粒噪声，这种颗粒性造成了图像对比度的变小以及对图像细节信息的遮盖。
人工智能数学基础--概率论