深度学习第三章-概率与信息论笔记

时间:2022-06-11 06:12:18

3.1 为什么要使用概率?

3.2 随机变量

3.3 概率分布

3.3.1 离散型变量和概率质量函数

  • 离散型变量的概率分布可以用概率质量函数(probabilit mass function, PMF)描述。

3.3.2 连续型变量和概率密度函数

  • 连续型随机变量的分布可以用概率密度函数(probability denstity function, PDF)表示。概率密度函数 p(x) 并没有直接对特定的状态给出概率,而是给出落在面积为 δx 的无限小的区域内的概率为 p(x)δx

3.4边缘概率

3.5条件概率

3.6条件概率的链式法则

3.7独立性和条件独立性

3.8期望、方差和协方差

  • 期望,
    ExP[f(x)]=xP(x)f(x)
    对于连续型:
    ExP[f(x)]=p(x)f(x)dx.
  • 方差(variance)衡量的是当我们对 x 根据它概率分布进行采样时,随机变量 x 的函数值会呈现多大的差异:
    Var((fx))=E[(f(x)E[f(x)])2]
    .方差的平方根被称为标准差。
  • 协方差(covariance)给出两个变量线性相关性的强度:

    Cov(f(x),g(y))=E[(f(x)E[f(x)])(g(y)E[g(y)])]
    协方差的绝对值大,意味着变量值变化很大并且它们同时距离各自的均值很远。

    • 若协方差为正,两个变量都倾向于同时取得相对较大的值
    • 若协方差为负,其中一个变量倾向于取得相对较大的值的同时,另一个变量倾向于取得较小的值,反之亦然。

    协方差矩阵(covariance matrix)是一个 n×n 的矩阵。 协方差矩阵的对角元是方差:

    Cov(xi,xi)=Var(xi)

3.9 常用概率分布

3.9.1 Bernoulli分布

  • Bernoulli分布是单个二值随机变量的分布。由单个参数 ϕ 控制,表示随机变量等于1的概率:
    P(x=1)=ϕ
    P(x=0)=1ϕ
    P(x=x)=ϕx(1ϕ)1x
    Ex[x]=ϕ
    Varx(x)=ϕ(1ϕ)

3.9.2 Multinoulli分布

  • Multinoulli分布或者范畴分布(categorycal distribution)是指在具有 k 个不同状态的单个离散型随机变量上的分布。

3.9.3 高斯分布

  • 高斯分布(Gaussian distribution)也称正态分布(normal distribution):
    N(x;μ,σ2)=12πσ2exp(12σ2(xμ)2)
    分布的均值 E[x]=μ ,分布的标准差用 σ ,方差 σ2
  • 当我们缺乏关于某个实数上分布的先验知识而不知道采用哪种分布,选择正态分布的原因:
    • 很多分布的真实情况比较接近正态分布。
    • 在具有相同方差的所有概率分布中,正态分布在实数上具有最大的不确定性。

3.9.4指数分布和Laplace分布

  • 泊松分布:一个时间段内时间平均发生的次数(离散变量)
  • 指数分布:两件事发生的平均时间间隔。
    p(x;λ)=λ1x0exp(λx)
    其中 1x0 是指示函数(indicator function),使得 x 取负值的概率为零。泊松分布和指数分布
  • Laplace分布:
    Laplace(x;μ,γ)=12γexp(|xμ|γ)

    其中 μ 是位置参数, γ 尺度参数。
  • 正态分布用平均值 μ 的差的平方 (xμ)2
  • Laplace用相对平均值的差的绝对值表示,尾部比正态分布更平坦。(声音辨识、JPEG压缩等)
    E(x)=μ
    Var(x)=2σ2
    拉普拉斯分布-百度百科

3.9.5 Dira分布和经验分布

  • 所有质量都集中在一点上。Dirac Delta函数:
    p(x)=δ(xμ)
    ,信号与系统中很熟悉了。除0点外所有点的值都是0,但整体积分为1.
  • 经验分布(empirical distribution):
    p(x)=1mi=1mδ(xx(i))
    将概率密度为 1mm

3.9.6 混合模型

  • 常见的高斯混合模型(Gaussian Mixture Model),高斯混合模型是概率密度的万能近似器(universal approximator)。

3.10 常用函数的有用性质

  • logistic sigmoid函数:
    σ(x)=11+exp(x)
    ,通常用来生成Bernoulli分布中的参数,(即得出分类的概率)。logistic 回归
  • softplus函数(softplus function):
    ζ(x)=log(1+exp(x))
    ,可以用来产生正态分布的 βσ 参数。来源于 x+=max(0,x) softplus Relu
  • 两者之间:
    σ(x)=exp(x)exp(x)+exp(0)
    等公式见书。

3.11贝叶斯规则

常用:

P(x|y)=P(x)P(y|x)P(y)
,具体百度贝叶斯,朴素贝叶斯等。
###3.12连续型变量的技术细节
假设两个随机变量 x y 满足 y=g(x) ,是否 py(y)=px(g1(y)) 成立?
不成立
举例子:假设 y=x2x(0,1) 如果令 py(y)=px(2y) ,此时 py 除了区间(0, 12 )之外都为0,并在这个区间等于1(与 px 一致).所以整个区间积分为 12 ,与概率密度定义矛盾。这是因为没有考虑引入函数 g 引起的空间变形。(点的密度不同)。为解决这一矛盾:对于实值向量 x y :引入Jacobian矩阵进行微分扩展运算:
px(x)=py(g(x))det(g(x)x)

3.13信息论

本科和研一学过太多了,略过0.0

  • KL散度(Kullback-Leibler(KL)divergence)衡量两个单独的概率分布 P(x) Q(x) 的差异:
    DKL(P||Q)=ExP[logP(x)Q(x)]=ExP[logP(x)logQ(x)]
    在离散型变量的情况下,KL散度衡量的是当一种能被设计成概率分布Q产生的消息的最小的编码,发送包含由概率P产生的符号的消息时,所需要的额外信息量。
    • KL散度非负。KL散度为0,且 P(x)Q(x)

结构化概率模型

  • 有向(directed)图
  • 无向(undirected)图
    还没用到过,不太了解。tensorflow用的就是这种格式。

  • 方差 D=1N1Ni=1(xix¯)2 ,因为N - 1 x¯ ,用掉了一个*度。
  • softplus是relu的扩展,处处可导
  • nerual style ,数据很小优化可以用LBFGS