模式识别学习笔记——贝叶斯决策

时间:2024-03-23 15:49:39

先把贝叶斯公式放在这

P ( ω i ∣ x ) = P ( x ∣ ω i ) P ( ω i ) P ( x ) P(\omega_i|x)=\frac{P(x|\omega_i)P(\omega_i)}{P(x)} P(ωix)=P(x)P(xωi)P(ωi)

后验=(似然×先验) / 证据因子

关于贝叶斯定理的讲解,强烈推荐看3Blue1Brown的视频,B站就有。

核心思想就一句话:证据不应直接决定看法,而是更新看法

Symbol

  1. 类别 ω \omega ω

    ω i ,   i = 1 , 2 , 3 , . . . , c \omega_i, \ i=1,2,3,...,c ωi, i=1,2,3,...,c

  2. 先验概率 P ( ω i ) P(\omega_i) P(ωi)

    先验概率和为1

    Σ i = 1 c P ( ω i ) = 1 \Sigma_{i=1}^cP(\omega_i)=1 Σi=1cP(ωi)=1

  3. 后验概率 P ( ω i ∣ x ) P(\omega_i|x) P(ωix)

  4. 似然 P ( x ∣ ω i ) P(x|\omega_i) P(xωi)

  5. 样本 x x x(向量)

    实际上是选取某些特征来表示样本

Before Observation

 只知先验 P ( ω i ) P(\omega_i) P(ωi),没有似然 P ( x ∣ ω i ) P(x|\omega_i) P(xωi)
 那很简单,给定一个新的样本 x x x,最优的分类方法就是把它分为先验最大的那一类。

After Observation

 有了观测样本,那么就能用一些方法估计每个类 ω i \omega_i ωi取到 x x x的概率(离散情况下。连续情况就估计类条件概率密度函数),似然 P ( x ∣ ω i ) P(x|\omega_i) P(xωi)

类 条 件 概 率 密 度 函 数 p ( x ∣ ω i ) 类条件概率密度函数p(x|\omega_i) p(xωi)

模式识别学习笔记——贝叶斯决策

上面的结果并不能直接用于分类。
不能直接用于分类。
不能直接用于分类。
贝叶斯的核心思想: 证据不应直接决定看法,而是更新看法

 我们可以将似然理解为,从样本中学到的新的知识。我们应该拿它去更新旧的知识——先验(将二者相乘)。

 有先验,有似然,利用全概率公式,可以求证据因子

P ( x ) = Σ i = 1 c P ( x ∣ ω i ) P ( ω i ) P(x)=\Sigma_{i=1}^cP(x|\omega_i)P(\omega_i) P(x)=Σi=1cP(xωi)P(ωi)

 利用贝叶斯公式求出后验 P ( ω i ∣ x ) P(\omega_i|x) P(ωix),取后验最大的 ω i \omega_i ωi为样本 x x x的类别

模式识别学习笔记——贝叶斯决策

Two Special Case

1.等先验

P ( ω 1 ) = P ( ω 2 ) = ⋯ = P ( ω c ) = 1 c P(\omega_1)=P(\omega_2)=\cdots=P(\omega_c)=\frac{1}{c} P(ω1)=P(ω2)==P(ωc)=c1

 这种情况下,先验对于分类结果就没有影响。分类结果由似然决定。

2.等似然

P ( x ∣ ω 1 ) = P ( x ∣ ω 2 ) = ⋯ = P ( x ∣ ω c ) P(x|\omega_1)=P(x|\omega_2)=\cdots=P(x|\omega_c) P(xω1)=P(xω2)==P(xωc)

 这种情况下,似然对于分类结果就没有影响。分类结果由先验决定。

Is Bayes Decision Rule Optimal?

(这里学的挺糊涂的。。。)

 以二分类情况为例

P ( ω i ∣ x ) > P ( ω j ∣ x ) ,   D e c i d e : ω i ;   O t h e r w i s e : ω j P(\omega_i|x)>P(\omega_j|x),\ Decide:\omega_i;\ Otherwise:\omega_j P(ωix)>P(ωjx), Decide:ωi; Otherwise:ωj

 对于任意观测样本 x x x,对 x x x进行分类,分错的可能性(probability of error)如下式所示:

P ( e r r o r ∣ x ) = { P ( ω 1 ∣ x ) , i f   d e c i d e   ω 2 P ( ω 2 ∣ x ) , i f   d e c i d e   ω 1 P(error|x)= \left\{ \begin{aligned} &P(\omega_1|x), if \ decide \ \omega_2\\ &P(\omega_2|x), if \ decide \ \omega_1 \end{aligned}\right. P(errorx)={P(ω1x),if decide ω2P(ω2x),if decide ω1

我的理解如下:首先假设观测到的样本和实际情况是同分布的,对于某个观测样本 x = α x = \alpha x=α,假如 P ( ω 1 ∣ α ) = 0.1 P(\omega_1|\alpha) = 0.1 P(ω1α)=0.1 P ( ω 2 ∣ α ) = 0.9 P(\omega_2|\alpha)=0.9 P(ω2α)=0.9,那么所有取值为 α \alpha α的样本都会被分到 ω 2 \omega_2 ω2类。假设实际情况有100个样本取到值 α \alpha α,那么可能有10个属于 ω 1 \omega_1 ω1类,90个属于 ω 2 \omega_2 ω2类,错分的可能也就是0.1

 那么在贝叶斯决策论下,我们就有:
P ( e r r o r ∣ x ) = m i n [ P ( ω 1 ∣ x ) , P ( ω 2 ∣ x ) ] P(error|x)=min[P(\omega_1|x),P(\omega_2|x)] P(errorx)=min[P(ω1x),P(ω2x)]

模式识别学习笔记——贝叶斯决策

 上面这个是老师PPT里的东西,没想明白什么意思。

我的理解如下:首先这是以二分类为例,根据 P ( e r r o r ∣ x ) P(error|x) P(errorx)的定义,最小化 P ( e r r o r ∣ x ) P(error|x) P(errorx)就是最小化 P ( ω 1 ∣ x ) 、 P ( ω 2 ∣ x ) P(\omega_1|x)、P(\omega_2|x) P(ω1x)P(ω2x)两者的最小值。较小值尽可能小 ⟶ \longrightarrow 较大值尽可能大 ⟶ \longrightarrow 两类分的尽可能开(减少模糊区域)。
没想明白这和贝叶斯分类器是最优分类器之间怎么联系起来。

The General Case

  • 三种拓展

    • 多分类

    • 允许其他action(拒绝分类)

    • 引入loss function代替错分率(error probability)

  • Loss Function λ ( α i ∣ ω j ) \lambda(\alpha_i|\omega_j) λ(αiωj)

  当真实的类为 ω j \omega_j ωj时,执行 α i \alpha_i αi行动所产生的loss

  • Conditional risk (Expected loss)

  当观测到的样本为 x x x,执行操作 α i \alpha_i αi条件风险(期望损失)为

R ( α i ∣ x ) = Σ j = 1 c λ ( α i ∣ ω j ) P ( ω j ∣ x ) R(\alpha_i|x)=\Sigma_{j=1}^c\lambda(\alpha_i|\omega_j)P(\omega_j|x) R(αix)=Σj=1cλ(αiωj)P(ωjx)

Optimality of Bayesian Decision

  • Decision Rule Function → α ( x ) \rightarrow\alpha(x) α(x)

  • Total Risk → R = ∫ R ( α ( x ) ∣ x ) P ( x ) d x \rightarrow R=\int R(\alpha(x)|x)P(x)dx R=R(α(x)x)P(x)dx

  • Optimal Decision

    • 指定的决策规则要实现总风险最小化

    • 对于给定的特征 x x x ,如果决策规则选择的动作可以使条件风险 R ( α ( x ) ∣ x ) R(\alpha(x)|x) R(α(x)x) 最小化,那么总风险 R R R 将最小化

  • Bayesion Decision Rule

    对全部 i = 1 , 2 , . . . , a , i=1,2,...,a, i=1,2,...,a, 计算条件风险 R ( α i ∣ x ) R(\alpha_i|x) R(αix) ,挑选action α j \alpha_j αj 实现最小化条件风险 R ( α j ∣ x ) R(\alpha_j|x) R(αjx)

贝叶斯决策得到的最小总风险(minimum total risk)称为 贝叶斯风险(Bayesion Risk),用R*表示

Two-Class Classification

  • Action

    • α 1 \alpha_1 α1: decide ω 1 \omega_1 ω1

    • α 2 \alpha_2 α2: decide ω 2 \omega_2 ω2

  • Loss

    • λ i j = λ ( α i ∣ ω j ) \lambda_{ij}=\lambda(\alpha_i|\omega_j) λij=λ(αiωj)
  • Conditional Risk

    • R ( α 1 ∣ x ) = λ 11 P ( ω 1 ∣ x ) + λ 12 P ( ω 2 ∣ x ) R(\alpha_1|x)=\lambda_{11}P(\omega_1|x)+\lambda_{12}P(\omega_2|x) R(α1x)=λ11P(ω1x)+λ12P(ω2x)

    • R ( α 2 ∣ x ) = λ 21 P ( ω 1 ∣ x ) + λ 22 P ( ω 2 ∣ x ) R(\alpha_2|x)=\lambda_{21}P(\omega_1|x)+\lambda_{22}P(\omega_2|x) R(α2x)=λ21P(ω1x)+λ22P(ω2x)

  • minimum risk decision rule

    • if R ( α 1 ∣ x ) ≤ R ( α 2 ∣ x ) R(\alpha_1|x) \le R(\alpha_2|x) R(α1x)R(α2x) decide ω 1 \omega_1 ω1 else decide ω 2 \omega_2 ω2
  • Equivalent minimum risk decision rules

    (以将 x x x 分为 ω 1 \omega_1 ω1 类为例)

    R ( α 1 ∣ x ) ≤ R ( α 2 ∣ x ) R(\alpha_1|x) \le R(\alpha_2|x) R(α1x)R(α2x)

    ( λ 21 − λ 11 ) P ( ω 1 ∣ x ) ≥ ( λ 12 − λ 22 ) P ( ω 2 ∣ x ) (\lambda_{21}-\lambda_{11})P(\omega_1|x) \ge (\lambda_{12}-\lambda_{22})P(\omega_2|x) (λ21λ11)P(ω1x)(λ12λ22)P(ω2x)

    ( λ 21 − λ 11 ) P ( x ∣ ω 1 ) P ( ω 1 ) ≥ ( λ 12 − λ 22 ) P ( x ∣ ω 2 ) P ( ω 2 ) (\lambda_{21}-\lambda_{11})P(x|\omega_1)P(\omega_1) \ge (\lambda_{12}-\lambda_{22})P(x|\omega_2)P(\omega_2) (λ21λ11)P(xω1)P(ω1)(λ12λ22)P(xω2)P(ω2)

  • 通常来讲分类错误的损失,大于分类正确的损失

    λ 21 − λ 11 > 0 \lambda_{21}-\lambda_{11} > 0 λ21λ11>0
    λ 12 − λ 22 > 0 \lambda_{12}-\lambda_{22}>0 λ12λ22>0

  • 于是可以推出:(不等式左边项叫做似然比(Likelihood Ratio))
    P ( x ∣ ω 1 ) P ( x ∣ ω 2 ) ≥ ( λ 12 − λ 22 ) P ( ω 2 ) ( λ 21 − λ 11 ) P ( ω 1 ) \frac{P(x|\omega_1)}{P(x|\omega_2)} \ge \frac{(\lambda_{12}-\lambda_{22})P(\omega_2)}{(\lambda_{21}-\lambda_{11})P(\omega_1)} P(xω2)P(xω1)(λ21λ11)P(ω1)(λ12λ22)P(ω2)

  • 上面式子为基于似然比的Bayesian Decision Rule,满足上述不等式 → \rightarrow ω 1 \omega_1 ω1 类,不满足上述不等式 → \rightarrow ω 2 \omega_2 ω2 类。

“0-1” loss

λ ( α i ∣ ω j ) = { 0 i = j ( c o r r e c t d e c i s i o n ) 1 i ≠ j ( i n c o r r e c t d e c i s i o n ) \lambda(\alpha_i|\omega_j)= \left\{ \begin{aligned} &0 &i = j (correct decision)\\ &1 &i \ne j (incorrect decision) \end{aligned} \right. λ(αiωj)={01i=j(correctdecision)i=j(incorrectdecision)

  “0-1”loss可以视作没有损失

Minimum-Error-Rate Classification

  • Minimum-error-rate classification就是使用"0-1"loss的minimum risk classification

  • 退化为基于后验的分类器

Minimax Rule

(未完待续)