深度学习第三章-概率与信息论笔记

3.1 为什么要使用概率？

3.2 随机变量

3.3 概率分布

3.3.1 离散型变量和概率质量函数

离散型变量的概率分布可以用概率质量函数（probabilit mass function， PMF）描述。

3.3.2 连续型变量和概率密度函数

连续型随机变量的分布可以用概率密度函数（probability denstity function， PDF）表示。概率密度函数 p(x) 并没有直接对特定的状态给出概率，而是给出落在面积为 δx 的无限小的区域内的概率为 p(x)δx 。

3.4边缘概率

3.5条件概率

3.6条件概率的链式法则

3.7独立性和条件独立性

3.8期望、方差和协方差

期望， $E x \sim P [f (x)] = \sum x P (x) f (x)$ 对于连续型： $E x \sim P [f (x)] = \int p (x) f (x) d x .$
方差（variance）衡量的是当我们对 x 根据它概率分布进行采样时，随机变量 x 的函数值会呈现多大的差异： $V a r ((f x)) = E [(f (x) - E [f (x)]) 2]$ .方差的平方根被称为标准差。
协方差（covariance）给出两个变量线性相关性的强度：

Cov(f(x),g(y))=E[(f(x)−E[f(x)])(g(y)−E[g(y)])]
协方差的绝对值大，意味着变量值变化很大并且它们同时距离各自的均值很远。
- 若协方差为正，两个变量都倾向于同时取得相对较大的值
- 若协方差为负，其中一个变量倾向于取得相对较大的值的同时，另一个变量倾向于取得较小的值，反之亦然。
协方差矩阵（covariance matrix）是一个 n×n 的矩阵。协方差矩阵的对角元是方差：

Cov(xi,xi)=Var(xi)

3.9 常用概率分布

3.9.1 Bernoulli分布

Bernoulli分布是单个二值随机变量的分布。由单个参数 ϕ 控制，表示随机变量等于1的概率： $P (x = 1) = ϕ$ $P (x = 0) = 1 - ϕ$ $P (x = x) = ϕ x (1 - ϕ) 1 - x$ $E x [x] = ϕ$ $V a r x (x) = ϕ (1 - ϕ)$

3.9.2 Multinoulli分布

Multinoulli分布或者范畴分布（categorycal distribution）是指在具有 k 个不同状态的单个离散型随机变量上的分布。

3.9.3 高斯分布

高斯分布（Gaussian distribution）也称正态分布（normal distribution）： $N (x; μ, σ 2) = 1 2 π σ 2 - - - - - \sqrt e x p (- 1 2 σ 2 (x - μ) 2)$ 分布的均值 E[x]=μ ，分布的标准差用 σ表示，方差 σ2 。
当我们缺乏关于某个实数上分布的先验知识而不知道采用哪种分布，选择正态分布的原因：
- 很多分布的真实情况比较接近正态分布。
- 在具有相同方差的所有概率分布中，正态分布在实数上具有最大的不确定性。

3.9.4指数分布和Laplace分布

泊松分布：一个时间段内时间平均发生的次数（离散变量）
指数分布：两件事发生的平均时间间隔。 $p (x; λ) = λ 1 x \geq 0 e x p (- λ x)$ 其中 1x≥0 是指示函数（indicator function），使得 x 取负值的概率为零。泊松分布和指数分布
Laplace分布： $L a p l a c e (x; μ, γ) = 1 2 γ e x p (- | x - μ | γ)$
其中 μ 是位置参数， γ 尺度参数。
正态分布用平均值 μ 的差的平方 (x−μ)2 。
Laplace用相对平均值的差的绝对值表示，尾部比正态分布更平坦。（声音辨识、JPEG压缩等） $E (x) = μ$ $V a r (x) = 2 σ 2$ 拉普拉斯分布-百度百科

3.9.5 Dira分布和经验分布

所有质量都集中在一点上。Dirac Delta函数： $p (x) = δ (x - μ)$ ，信号与系统中很熟悉了。除0点外所有点的值都是0，但整体积分为1.
经验分布（empirical distribution）： $p (x) = 1 m \sum i = 1 m δ (x - x (i))$ 将概率密度为 1m的m个点中赋给每一个，给定采样

3.9.6 混合模型

常见的高斯混合模型（Gaussian Mixture Model），高斯混合模型是概率密度的万能近似器（universal approximator）。

3.10 常用函数的有用性质

logistic sigmoid函数： $σ (x) = 1 1 + e x p ( - x )$ ，通常用来生成Bernoulli分布中的参数，（即得出分类的概率）。logistic 回归
softplus函数（softplus function）： $ζ (x) = l o g (1 + e x p (x))$ ，可以用来产生正态分布的 β和σ 参数。来源于 x+=max(0,x) softplus Relu。
两者之间： $σ (x) = e x p ( x ) e x p ( x ) + e x p ( 0 )$ 等公式见书。

3.11贝叶斯规则

常用：

P (x | y) = P ( x ) P ( y | x ) P ( y )

，具体百度贝叶斯，朴素贝叶斯等。
###3.12连续型变量的技术细节
假设两个随机变量

x 和

y 满足

y=g(x) ，是否

py(y)=px(g−1(y)) 成立？
不成立
举例子：假设

y=x2，x∈(0,1) 如果令

py(y)=px(2y) ，此时

py 除了区间(0,

12 )之外都为0，并在这个区间等于1（与

px 一致）.所以整个区间积分为

12 ，与概率密度定义矛盾。这是因为没有考虑引入函数

g 引起的空间变形。（点的密度不同）。为解决这一矛盾：对于实值向量

x 和

y ：引入Jacobian矩阵进行微分扩展运算：

p x (x) = p y (g (x)) ∣ ∣ ∣ ∣ d e t (\partial g ( x ) \partial x) ∣ ∣ ∣ ∣

3.13信息论

本科和研一学过太多了，略过0.0

KL散度（Kullback-Leibler（KL）divergence）衡量两个单独的概率分布 P(x) Q(x) 的差异：
DKL(P||Q)=Ex∼P[logP(x)Q(x)]=Ex∼P[logP(x)−logQ(x)]
在离散型变量的情况下，KL散度衡量的是当一种能被设计成概率分布Q产生的消息的最小的编码，发送包含由概率P产生的符号的消息时，所需要的额外信息量。
- KL散度非负。KL散度为0，且 P(x)和Q(x)为离散型变量是相同的分布。

结构化概率模型

有向（directed）图
无向（undirected）图
还没用到过，不太了解。tensorflow用的就是这种格式。

方差 D=1N−1∑Ni=1(xi−x¯)2 ，因为N - 1 x¯ ，用掉了一个*度。
softplus是relu的扩展，处处可导
nerual style ，数据很小优化可以用LBFGS

秒客网