pgm12

时间：2023-03-09 16:52:46

pgm12

作为 inference 部分的小结，我们这里对 machine learning 里面常见的三个 model 的 inference 问题进行整理，当然很幸运的是他们都存在 tractable 的算法是的我们避免了烦人的 approximate inference。

HMM

常意所说的 HMM 是对离散状态、离散观测情形下的一种 generative model，它包括

状态的先验分布 $pgm12$ （在下面的推导中我们可以将其藏在转移概率中）
转移状态 $pgm12$ ，这是对 $pgm12$ 的分布
发射概率 $pgm12$ ，这是对 $pgm12$ 的分布

这个模型的潜台词是

Markovian property： $pgm12$
time-invariance： $pgm12$

因此联合分布的概率为

$pgm12$

其中 $pgm12$ 故可省略。下面我们分别讨论这上面的 message passing、belief update 和一些常见的 inference 问题。

message passing 需要建立一个 cluster graph，当然实际也是一个 clique tree，这个图上的顶点包括 $pgm12$ ，这是将 $pgm12$ 、 $pgm12$ 和 $pgm12$ 绑在一起， $pgm12$ ；则每个对应的 $pgm12$ 。于是可以计算前向的消息，

$pgm12$

其中 $pgm12$ ，后向消息为

$pgm12$

其中 $pgm12$ 。如果仔细分析一下这些消息，我们就会发现，前向消息其实是边际分布

$pgm12$

我们可以继续代入后面的消息里面，

$pgm12$

如果观测是给定的，即 $pgm12$ 已知，这获得的将是 $pgm12$ 。对后向消息而言，

$pgm12$

代入后面的消息有

$pgm12$

都是常数。如果 pgm12 是已知的，这将获得 $pgm12$ 。

对于 MAP 类型的 query，我们需要使用 max-product 算法，此时的前向消息为（ $pgm12$ ）

$pgm12$

且

$pgm12$

后向消息为

$pgm12$

且

$pgm12$

对 belief update 来说，belief 是 $pgm12$ 上的边际分布

$pgm12$

而对应的 belief update 为

$pgm12$

类似可以导出 MAP 类型下的形式。这样，对于 filtering 来说 $pgm12$ 可以将前向消息归一化，而 prediction 使用的概率

$pgm12$

是归一化后的值。smoothing 需要求 $pgm12$ ，本质上就是 $pgm12$ ，这直接使用 MAP 类型两种 message 就能给出两种算法。

LDS

LDS 和 HMM 具有类似的图结构，但是对应的状态和观测均为连续分布，因而常使用 Gaussian 建模。

$pgm12$

其中，

$pgm12$

另一种描述这种关系的形式是使用 additive noise，

pgm12

使用的 clique tree 与前面一致，前向消息为

$pgm12$

且

$pgm12$

其中 $pgm12$ and $pgm12$ ，后向消息也均为 1。对 MAP 类型的 query，前向消息为

$pgm12$

关于 $pgm12$ 的优化问题是

$pgm12$

其解为

$pgm12$

这是 $pgm12$ 的线性函数，因此大致的求解过程是，从 $pgm12$ 的二次方程中解出 $pgm12$ 得到一个使用 $pgm12$ 的线性函数表示的关系，代入后得到 $pgm12$ 的消息，这仍然是一个二次函数，向后代入即可。最后获得的 $pgm12$ 的方程解出 $pgm12$ 后进行回代就解出了其他的隐变量。

beliefs 为

$pgm12$

且

$pgm12$

类似有对应 belief。

对 filtering 问题，给定 $pgm12$ 后计算 $pgm12$ 可使用前向消息，

$pgm12$

其中，

$pgm12$

且

$pgm12$

其中

pgm12

令 $pgm12$ 且 $pgm12$ 则以上计算可用统一的形式表述。

对 prediction 问题，给定 $pgm12$ ， $pgm12$ 可使用 filtering 的结果计算

pgm12

MEMM

我们直接对 $pgm12$ 使用 ME 建模，但是为了引入上下文关系，我们可以将这个 ME 弄成多个 $pgm12$ ，这也就是说前面一个状态决定了后面使用的 ME 的参数。这样似然函数为

pgm12

这里的假定有，

Markovian 性： $pgm12$ ，
ME 假定： $pgm12$

我们使用与 HMM 一致的 cluster graph，前向消息为

pgm12

后向消息为

pgm12

max-product message passing 仅仅需要将求和换成 max。belief propagation 中 belief 为

$pgm12$

且 belief update 为

pgm12

其 filtering、prediction 和 smoothing 算法与 HMM 完全一样。

CRF

其假设为

Markovian 性，与 MEMM 类似；
invariant factor：对每个 transition，我们引入一个 log-linear 表示， $pgm12$ ，其中 $pgm12$ 是所谓的 feature；

类似前面可以定义消息、belief 等。如果需要计算 log-likelihood，我们需要求 partition function 的函数值，这需要使用前向消息

$pgm12$

就能避免指数求和项，而计算梯度的时候，

$pgm12$

其中后者需要 $pgm12$ ，这正是 belief。

——————
And Sarah saw the son of Hagar the Egyptian, which she had born to Abraham, mocking.

