BP算法推导

BP算法（BackPropagation）反向传播算法又叫误差逆传播算法（error BackPropagation），它是迄今最成功的神经网络学习算法。
现在从神经网络训练的角度推导BP算法。
给定训练集 $D = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{m}, y_{m})}, x_{i} \in R^{d}, y_{i} \in R^{l}$
输入是d维的向量，输出l维向量（可以看成进行l类分类），这个训练集有m个样本，现在画出一个普通的神经网络来训练这些样本，这个普通的神经网络就是单纯由神经元构成的多层神经网络，不是CNN，RNN之类的高级网络。
BP算法推导
在上图中， $b_{h}$ 是隐层第h个神经元的输出，每个神经元对应的都是一个数字，而不是一个向量或其他。
对训练样本（ $x_{k}, y_{k}$ ）来说，假定该样本对应的神经网络的输出为 ${\hat{y}}_{k} = ({\hat{y}}_{1}^{k} ， {\hat{y}}_{2}^{k} ， \dots ， {\hat{y}}_{l}^{k})$ ,这个输出用函数表示如下：

${\hat{y}}_{j}^{k} = f (β_{j} - θ_{j})$
其中函数f表示整个神经网络的所有权重拟合出来的一个复杂函数，也就是由神经网络得到的映射关系，根据上图， $β_{j}$ 是输出层第j个神经元的输入， $θ_{j}$ 是输出层第j个神经元的阈值，一般神经元的**函数是sigmoid函数，当输出神经元的输入 $β_{j}$ 大于神经元的指定阈值时，该神经元才会被**起作用，所以实际上 $β_{j} - θ_{j}$ 就是神经网络输出层每个神经元的输入。
该样本（ $x_{k}, y_{k}$ ）(第K个样本)的均方误差为：
$E_{k} = \frac{1}{2} \sum_{j = 1}^{l} ({\hat{y}}_{j}^{k} - y_{j}^{k})^{2}$
这个多层网络的参数个数为输入层到隐层的参数个数d*q,加上隐层到输出层的参数个数q*l,以及隐层和输出层神经元的阈值q,l,所以一共有d*q+q*l+q+l个参数需要确定。

如何进行学习（也就是权重调整）？
先来看感知机如何进行学习
感知机学习规则非常简单，对于训练样本 $(x, y)$ ,若当前感知机的输出为 $\hat{y}$ ，则感知机的权重将这样调整：
$w_{i} ⟵ w_{i} + Δ w_{i}$
$Δ w_{i} = η (y - \hat{y}) x_{i}$
其中 $η$ 是学习速率，如果预测结果和标签一致，那 $Δ w_{i}$ 就是0，权重完全不调整，标签与预测结果相差越大，调整的程度就越大。

神经网络中的参数调整与感知机类似，对从输入层到隐层的权重进行调整（又叫更新估计）如下：
$v ⟵ v + Δ v$
下面以从隐层到输出层的权重为例来推导神经网络的BP算法。
BP算法基于梯度下降（gradient descent）策略，以目标的负梯度方向对参数进行调整。
隐层到输出层的权重是 $w_{h j}$ ,根据权重的调整公式：

$w_{h j} = w_{h j} + Δ w_{h j}$
关键点： $Δ w_{h j}$ 如何计算？
在上面我们知道了实际值与预测值的均方误差 $E_{k}$ ，这是计算调整量 $Δ w_{h j}$ 的根源，根据定义，BP算法是基于梯度下降，以目标的副提督对参数进行调整的方法，所以让误差对自变量 $w_{h j}$ 求偏导，而且已知学习速率：
$Δ w_{h j} = - η \frac{\partial E_{k}}{\partial w_{h j}}$
由于 $w_{h j}$ 不是已知的，需要找到 $w_{h j}$ 的依存变量直到某个依存变量是已知的，从而级联完成求偏导的过程。
根据神经网络的图我们知道 $w_{h j}$ 是 $β_{j}$ 的因变量， $β_{j}$ 又是神经网络输出层的输入变量，输出层的输出是 ${\hat{y}}_{j}^{k}$ ，这个输出是均方误差 $E_{k}$ 的输入，这样就利用一系列的中间变量将 $E_{k}$ 与 $w_{h j}$ 联系起来了，所以 $\frac{\partial E_{k}}{\partial w_{h j}}$ 又可以写为：
$\frac{\partial E_{k}}{\partial w_{h j}} = \frac{\partial E_{k}}{\partial {\hat{y}}_{j}^{k}} \cdot \frac{\partial {\hat{y}}_{j}^{k}}{\partial β_{j}} \cdot \frac{\partial β_{j}}{\partial w_{h j}}$
接下来就是一项一项的计算这几个级联项的偏导。
看最后一项， $β_{j}$ 与 $w_{h j}$ 的关系，根据前面的两者的公式，显然有
$\frac{\partial β_{j}}{\partial w_{h j}} = b_{h}$

$b_{h}$ 是隐层输出，这个隐层输出可以用同样的方法有输入层到隐层的权重计算得出，在输入如曾到隐层的计算过程中，与 $b_{h}$ 地位相当的是 $x_{i}$ ，这个是原始数据，是完全一致的，所以从头开始看这个神经网络就可以解出来了。

现在看前面的两项，第一项是对一个二次函数求骗到，这个很简单，根据前面的公式求导杰即可，结果是 $\frac{\partial E_{k}}{\partial {\hat{y}}_{j}^{k}} = {\hat{y}}_{j}^{k} - y_{j}^{k}$
第二项是对**函数求导，这里的**函数是sigmoid函数，对sigmoid函数的求导公式是 $f^{'} (x) = f (x) (1 - f (x))$ ，所以 $\frac{\partial {\hat{y}}_{j}^{k}}{\partial β_{j}} = {\hat{y}}_{j}^{k} （ 1 - {\hat{y}}_{j}^{k} ）$
综上，这个级联的求导公式的最终结果是：

\frac{\partial E_{k}}{\partial w_{h j}} = \frac{\partial E_{k}}{\partial {\hat{y}}_{j}^{k}} \cdot \frac{\partial {\hat{y}}_{j}^{k}}{\partial β_{j}} \cdot \frac{\partial β_{j}}{\partial w_{h j}} = ({\hat{y}}_{j}^{k} - y_{j}^{k}) {\hat{y}}_{j}^{k} （ 1 - {\hat{y}}_{j}^{k} ） b_{h}

将前两个级联的偏导结果记为 $g_{i} = - \frac{\partial E_{k}}{\partial {\hat{y}}_{j}^{k}} \cdot \frac{\partial {\hat{y}}_{j}^{k}}{\partial β_{j}}$ ,总的变化量可表示为 $Δ w_{h j} = - η \frac{\partial E_{k}}{\partial w_{h j}} = η g_{i} b_{h}$

上面所有的 $E_{k}$ 实际上都是 $E_{k}^{j}$ ,就是说从输出层到隐层的反向传播的误差都是点对点的，输出层的每个神经元都有一个误差，用该神经元上的误差来训练对应的权重。
这是从输出层到隐层的反向传播推导，基本是链式法则的应用，从隐层到输入层又该如何推导呢？
大体上是一样的，但是有一个关键点需要注意。反向传播的源头是误差，从输出层到隐层的反向传播的误差与训练的权重是一一对应的，但是，对隐层到输入层的反向传播来说，隐层的输出是 $b_{h}$ ，这个结点接收到的误差是从 $l$ 个输出层神经元传递过来的误差，是一个误差和，所以在计算梯度中的误差是一个误差和:
$\frac{\partial E_{k}}{\partial b_{h}} = \sum_{j = 1}^{l} \frac{\partial E_{k}^{j}}{\partial β_{j}} \cdot \frac{\partial β_{j}}{\partial b_{h}}$
所以从隐层到输入层的反向传播公式为：

$Δ v_{i h} = \frac{\partial E_{k}}{\partial v_{i h}} = \frac{\partial E_{k}}{\partial b_{h}} \cdot \frac{\partial b_{h}}{\partial α_{h}} \cdot \frac{\partial α_{h}}{\partial v_{i h}} = \sum_{j = 1}^{l} \frac{\partial E_{k}^{j}}{\partial β_{j}} \cdot \frac{\partial β_{j}}{\partial b_{h}} \cdot \frac{\partial b_{h}}{\partial α_{h}} \cdot \frac{\partial α_{h}}{\partial v_{i h}}$
其中 $\frac{\partial E_{k}^{j}}{\partial β_{j}}$ 在上面已经求出来了，就是 $g_{j}$ ，而 $\frac{\partial β_{j}}{\partial b_{h}} = w_{h j}$ , $\frac{\partial α_{h}}{\partial v_{i h}} = x_{i}$ ，从 $α_{h}$ 到 $b_{h}$ 是隐层的输入和输出，这一层的**函数是sigmoid函数，所以仍是对sigmoid函数求偏导，不赘述。
到此为止就可以求出从隐层到输入层的反向传播公式，需要注意的是隐层传递过来的误差是所有输出神经元上的误差，而不是一个神经元上的误差，这一点和从输出层到隐层的反向传播不同。

学习速率
学习速率控制着算法每一轮迭代中的更新步长，太大容易震荡，太小收敛速度太慢，有时为了精细调节，可以在不同的层使用不同的学习速率，比如在输入层到隐层使用一个学习速率，在隐层到输出层使用另一个学习速率训练。

注意
BP算法的目标是最小化训练集上所有样本的累积误差
$E = \frac{1}{m} \sum_{k = 1}^{m} E_{k}$
$E_{k}$ 是第k个样本的误差，训练集中一共有m个样本，要让这m个样本的总误差最小。但上面介绍的‘标准BP算法’是仅针对一个样本更新连接权值和阈值，只要把上面的k去掉就不是针对一个样本的了，就是多个样本的累积错误完成后在更新参数。

神经网络的过拟合与正则化
由于神经网络的参数很多，其表示能力很强大，正是因为这样，神经网络的训练很容易过拟合，如何避免过拟合，一个是早停法，就是你看训练的差不多了，就把程序关掉，停止训练，另一种是正则化，正则化就是前面的博文中讲的正则化，一般是L2正则。其基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分，例如连接权与阈值的平方和。

秒客网

BP算法推导

BP算法推导

相关文章