Recurrent Neural Network(循环神经网络)

Reference: Alex Graves的[Supervised Sequence Labelling with RecurrentNeural Networks]

Alex是RNN最著名变种，LSTM发明者Jürgen Schmidhuber的高徒，现加入University of Toronto，拜师Hinton。

统计语言模型与序列学习

1.1 基于频数统计的语言模型

NLP领域最著名的语言模型莫过于N-Gram。

它基于马尔可夫假设，当然，这是一个2-Gram(Bi-Gram)模型：

任意一个词$W_{i}$出现的概率只同它前面的词$W_{i-1}$有关。

迁移到N-Gram中，就变成：

在一个句子当中，一个单词的T出现的概率，和其前N个单词是有关的:

$P(W_{t}|W_{t-N}....,W_{t-1},W_{t+1}....,W_{t+N})$

早期计算Bi-Gram的方法，正如吴军博士所著的《数学之美》里科普的那样，采用词频统计法：

$P(W_{i}|W_{i-1})=\frac{P(W_{i-1},W_{i})}{P(W_{i-1})}\approx \frac{Cnt(W_{i-1},W_{i})}{Cnt(W_{i-1})}$

只需要统计一下$W_{i}$、$W_{i-1}$一起出现的频数就可以了。

看起来确实很简单，很数学之美。当然，作为一本科普读物，它是不会告诉你这种方法是有多大危害的。

具体实现，可以使用以下两个算法：

①KMP：将$W_{i}$、$W_{i-1}$两个词拼在一起，跑一次Text串。

②AC自动机：同样拼接，不过是预先拼好所有的模式串，输入AC自动机里，仅仅跑一次Text串。

但如果你是一名ACM选手，应该对AC自动机深有体会，这玩意简直就是内存杀手。

两者相害，取其轻。很明显，实际运用的时候，根本不会考虑KMP，优先选择空间换时间的AC自动机算法。

在[CS224D Lecture7]中，Socher提到了N-Gram频数统计法的state-of-art结果，[Heafield 2013]

看看Abstract就够吓人了：

Using one machine with 140 GB RAM for 2.8 days, we built an unpruned model on 126 billion tokens.

还是建立在 MapReduce 上。这种吃硬件的方法，不得不说，真是够糟糕的。

1.2 基于神经网络的语言模型

Neural Network Language Model (NNLM)，最早正式在[Bengio03]提出。

Recurrent Neural Network(循环神经网络)

Bengio使用的是一个经典的前馈网络来训练N-Gram不同之处在于，输入层是可训练的。

输入层最后被训练成Word Vector，在[Mikolov13]提出Word2Vec之前，大多称为Word Embeddings。

具体的方法:

①为每个词，构建$|N*Dim|$的向量参数。这点与Word2Vec的简化方法有所不同。

Word2Vec取消训练了词序信息，所以向量大小是$|Dim|$。

②拿到一个句子，句子长度是T，利用词的索引，组合出$|T，N*Dim|$的输入矩阵。

③如普通NN一样，Softmax误差，BP传播，更新。

NNLM方法，轻量的复现的N-Gram模型，需要更少的内存。且无须做平滑处理，如[Katz backoff]。

1.3 序列学习

正如朴素贝叶斯假设一样，马尔可夫假设也是一种糟糕的近似。

对于一个词$W_{i}$，只覆盖前N个词，很多时候是抓不住重点的。

最好的解决方案，当然是对于一个词$W_{i}$，覆盖其前面的所有词。

模仿动态规划原理，构建成一个动态序列模型。这需要Recurrent Neural Network(RNN)来实现。

RNN通常译为循环神经网络，其类似动态规划的原理，也可译为时序递归神经网络。

当然还有结构递归神经网络RNN（Recursive Neural Network)，使用频率不高，没落。

通常RNN指的是时序递归RNN。

RNN结构与更新

2.1 经典之作：Elman's Simple Recurrent Networks(SRN)

J. L. Elman提出的SRN是RNN系中结构最简单的一个变种，相较于传统的2层FC前馈网络，它仅仅在FC层添加了时序反馈连接。

Recurrent Neural Network(循环神经网络)

左图是不完整的结构图，因为循环层的环太难画，包含自环、交叉环。

所以RNN一般都画成时序展开图，如右图。

从时序展开图中，容易看出，SRN在时序t时，前面的全部状态，压缩在一起，输入到当前隐层中。

因而，RNN可以看成是具有动态深度结构的图模型，随着时序的增加，网络深度越来越大，因而属于深度神经网络。

2.2 前向传播

较于2层前馈网络，唯一变化是，时序为$t$时，隐层输入由两部分组成：

①输入层映射变换。(非递归)

②时序为$t-1$时，隐层神经元的激活输出。(时序递归)

以下用$a_{j}^{t}$表示神经元j的输入，$b_{j}^{t}$表示神经元j的激活后输出，为表示清晰，忽略Bias。

输入到达隐层时，有：

$a_{h}^{t}=\sum_{i=1}^{I}w_{ih}x_{i}^{t}+\sum_{h^{'}=1}^{H}w_{h^{'}h}b_{h^{'}}^{t-1}$

多出的$h^{'}->h$变换，大可称为隐隐层变换，为前馈网络带来记忆槽。

它记忆着时序$[1,t-1]$到达输出层之前的神经元的全部状态。

激活隐层神经元后，有：

$b_{h}^{t}=Activation(a_{h}^{t})$

经过输出层后，有:

$y_{k}^{t}=Softmax(W_{hk}b_{h}^{t})$

2.3 反向传播

仿照BP网络一样，定义局部梯度：

$\delta _{y}^{t}=\frac{\partial \mathcal{L}}{\partial b_{y}^{t}} \cdot \frac{\partial b_{y}^{t}}{\partial a_{y}^{t}}$

也就是说，从似然函数开始，由链式尾，导到$\partial W$的前一步。

对输出层，有:

$\frac{\partial \mathcal{L}}{\partial W_{hk}}=\delta_{k}^{t}\cdot\frac{\partial a_{j}^{t}}{\partial W_{hk}}$

$\delta_{k}^{t}$即，Softmax里的 $(1\{y_{i}=j\}-P(y^{(i)}=j|x;\theta_{j})),j=1,2....k$

对隐隐层，有:

$\frac{\partial \mathcal{L}}{\partial W_{h^{'}h}}=\sum_{p=1}^{t}\frac{\partial \mathcal{L}}{\partial b_{k}^{t}}\cdot\frac{\partial b_{k}^{t}}{\partial a_{k}^{t}}\cdot\frac{\partial b_{h}^{t}}{\partial b_{h}^{p}}\cdot\frac{\partial b_{h}^{p}}{\partial W_{h^{'}h}} \qquad where \quad \frac{\partial b_{h}^{t}}{\partial b_{h}^{p}}=\prod_{j=p+1}^{t}\frac{\partial b_{h}^{j}}{\partial b_{h}^{j-1}}$

上式来自[CS224d Lecture7]，是RNN的Feet of Clay，需要牢记。

因为需要累乘，相当于求一个超深度神经网络结构的梯度，会带来严重的Gradient Vanish\Exploding。下文会详细描述。

至于为什么可以写成那样，你可以用一个简单的单神经元，无激活函数的网络推一下：

$a_{3}=wx_{3}+w^{'}a_{2}=....=wx_{3}+w^{'}wx_{2}+(w^{'})^{2}wx_{1}\\\\\frac{\partial a_{3}}{w^{'}}=????\\\\Answer=\frac{\partial a_{3}}{\partial a_{3}}\cdot\frac{\partial a_{3}}{w^{'}}+\frac{\partial a_{3}}{\partial a_{3}}\cdot\frac{\partial a_{3}}{\partial a_{2}}\cdot\frac{\partial a_{2}}{w^{'}}+\frac{\partial a_{3}}{\partial a_{3}}\cdot\frac{\partial a_{3}}{\partial a_{2}}\cdot\frac{\partial a_{2}}{\partial a_{1}}\cdot\frac{\partial a_{1}}{w^{'}}$

同样，去掉后面的部分，有局部梯度：

$\delta_{h^{'}}^{t}=\sum_{p=1}^{t}\frac{\partial \mathcal{L}}{\partial b_{k}^{t}}\cdot\frac{\partial b_{k}^{t}}{\partial a_{k}^{t}}\cdot\frac{\partial b_{h}^{t}}{\partial b_{h}^{p}} \qquad where \quad \frac{\partial b_{h}^{t}}{\partial b_{h}^{p}}=\prod_{j=p+1}^{t}\frac{\partial b_{h}^{j}}{\partial b_{h}^{j-1}}$

这样，对隐层，就有著名的BPTT更新法则，正如[Alex]书中所写：

$\delta _{h}^{t}=Activation^{'}(a_{h}^{t})\begin{pmatrix}\sum_{k=1}^{K}\delta _{k}^{t}w_{hk}+\sum_{h^{'}=1}^{H}\delta _{h^{'}}^{t+1}w_{hh^{'}}\end{pmatrix}$

当然$\delta _{h^{'}}^{T+1}$会越界，等于0。

这里，最头疼的是，为什么隐隐层的局部梯度是取决于时序t+1的？

这个需要跨越一步来看，$W^{t}$不仅会在当前时序t，作为隐层参数出现，还会在时序t+1，作为隐隐层的附加参数出现。

这样，链式法则波及到了时序t，以及时序t+1，所以局部梯度由两部分组成，这是BPTT更新法的精髓。

最后一部分:

$\frac{\partial \mathcal{L}}{\partial W_{ih}}=\frac{\partial \mathcal{L}}{\partial a_{h}^{t}}\cdot\frac{\partial a_{h}^{t}}{\partial W_{ih}}=\delta _{h}^{t}x_{i}^{t}$

RNN与语义分析

RNN的祖先是1982年提出的Hopfield网络。

Hopfield网络因为实现困难，外加没有合适应用，被86年后的前馈网络取代。

90年代恰逢神经网络衰落期，前馈MLP在Optimization上被揪出种种弊端，又被SVM取代。

在Represention上，CV界老一辈还在用着hand-made特征，Speech&NLP也偏重Statistics的特征。

1990年提出的两种变种RNN，Elman&Jordan SRN同样因为没有合适的实际应用，很快又被无视。

过了十几年，遇上了DL热潮，RNN被研究出具有挖掘语义信息的Distrubuted Represention能力。

终于被拿来做Speech和Language Model方面语义分析相关任务。

3.1 记忆特性

一个时长为T的Simple RNN，unfold(展开)后实质是一个深度为T的前馈网络。

序列上所有的输入信息、non-linearity变换的隐态信息从开始时刻，一直保留至当前时刻。

从生物神经学角度，就是长期记忆(Long-Term Memory)特性。

前馈网络不是万能的，尽管在CV上大放光彩，但确实不适合解决逻辑问题。

Prolog曾经大放光彩，很多人坚信概率解决不了逻辑智能问题，但被RNN打脸了，比如下面这个问题：

Recurrent Neural Network(循环神经网络)

RNN就能够通过长记忆，向前搜索出输入中的关键信息。

3.2 Gradient Vanish

深度神经网络的头号问题就是Gradient Vanish，尤其是比MLP还要深多少倍的RNN。

★数学角度：[Bengio94]给出了Simple RNN出现Gradient Vanish的原因：

$\left | \prod_{j=p+1}^{t}\frac{\partial b_{h}^{j}}{\partial b_{h}^{j-1}}\right |\leqslant (\beta_{W}\cdot\beta_{h})^{t-p} \quad where \quad \beta =UpperBound$

W、h两个参数矩阵，先积后幂，导致上界突变速度飞快，要么$\rightarrow 0$，要么$\rightarrow \infty$

如若引入大量的饱和Non-Linearity，如Sigmoid(Logistic|Tanh)，那么最普遍的情况就是$Gradient \rightarrow 0$

★生物学角度：

Recurrent Neural Network(循环神经网络)

术语称之为Long-Term Memory退化到Short-Term Memory，只能记忆短期记忆。

3.3 RNNLM

尽管Simple RNN有诸多缺陷，但Short-Term Memory毕竟聊胜于无。

[Mikolov10]最先提出用RNN来做LM，不过并没有用Word Embedings。

RNNLM从sentence-level切入，把一个sentence看成是一个sequence，逐个跑word推动时序。

3.4 RNN For Speech Understanding

[Mesnil13]则又将RNN同最近比较火的Word Embedings结合起来。

这篇paper是Bengio组Mesnil和在微软实习的时候和Redmond研究院语音领域两位大牛Xiaodong He、Li Deng合作的。

目测是在MS传播导师的Theano。(OS：看你们还在公式推Gradient，啊哈哈哈)

Recurrent Neural Network(循环神经网络)

3.4.1 Word embeddings

回过头来再看[Mikolov13]的Word2Vec，13年开始真是全民玩起了词向量。

[Mesnil13]总结了词向量的几点好处:

★以较小的维度向量，提纯出Word的N维的欧几里得空间信息，俗称降维。

★可以先在Wiki之类的大型Corpus上Pre-Training出部分语义语法信息，

然后根据实际任务Fine-Tuning，符合深度学习原则。

★大幅度提升Generalization。

3.4.2 Context Window

另一个流行起来的Trick就是Context Window，Word2Vec的核心之一。

不同的是，Word2Vec丢弃了窗口词的空间排列信息，而正常方法则选择将窗口词合并。

[Bengio03]中的词向量，是在词典里直接取整个Dim长度的向量，设Dim=350。

而做了Context Window之后，单个词的Dim变小，通常为(50|100)，窗口大小通常为(3~19)：

Recurrent Neural Network(循环神经网络)

[Mesnil13]给出Context Window的唯一作用：

★强化短期记忆(Short-Term)

看起来不是很有说服力，从Word2Vec来看，起码还有这些作用：

★强化上下文信息捕捉能力

★强化语义、语法信息捕捉能力

秒客网

Recurrent Neural Network(循环神经网络)

Reference: Alex Graves的[Supervised Sequence Labelling with RecurrentNeural Networks]

统计语言模型与序列学习

1.1 基于频数统计的语言模型

1.2 基于神经网络的语言模型

1.3 序列学习

RNN结构与更新

2.1 经典之作：Elman's Simple Recurrent Networks(SRN)

2.2 前向传播

2.3 反向传播

RNN与语义分析

3.1 记忆特性

3.2 Gradient Vanish

3.3 RNNLM

3.4 RNN For Speech Understanding

3.4.1 Word embeddings

3.4.2 Context Window

相关文章