反向传播算法 Backpropagation Algorithm

假设我们有一个固定样本集反向传播算法 Backpropagation Algorithm ，它包含个样例。我们可以用批量梯度下降法来求解神经网络。具体来讲，对于单个样例（x,y），其代价函数为：这是一个（二分之一的）方差代价函数。给定一个包含个样例的数据集，我们可以定义整体代价函数为：

以上公式中的第一项反向传播算法 Backpropagation Algorithm 是一个均方差项。第二项是一个规则化项（也叫权重衰减项），其目的是减小权重的幅度，防止过度拟合。

[注：通常权重衰减的计算并不使用偏置项反向传播算法 Backpropagation Algorithm ，比如我们在的定义中就没有使用。一般来说，将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。在贝叶斯规则化方法中，我们将高斯先验概率引入到参数中计算MAP（极大后验）估计（而不是极大似然估计）。]

权重衰减参数 反向传播算法 Backpropagation Algorithm 用于控制公式中两项的相对重要性。在此重申一下这两个复杂函数的含义：是针对单个样例计算得到的方差代价函数；是整体样本代价函数，它包含权重衰减项。

以上的代价函数经常被用于分类和回归问题，在分类问题中，我们用y=0或y=1，来代表两种类型的标签（回想一下，这是因为sigmoid激活函数的值域为[0,1]；如果我们使用双曲正切型激活函数，那么应该选用-1和+1作为标签）。对于回归问题，我们首选要变换输出值域（也就是y）以保证其范围为[0,1]（同样地，如果我们使用双曲正切型激活函数，要使用输出值域为[-1,1]）。

我们的目标是针对W和b来求其函数J(W,b)的最小值。为了求解神经网络，我们需要将每一个参数反向传播算法 Backpropagation Algorithm 和初始化为一个很小的，接近零的随机值（比如说，使用正态分布生成的随机值，其中设置为），之后对目标函数使用诸如梯度批量梯度下降法的最优化算法。因为是一个非凸函数，梯度下降法很可能会收敛到局部最优解；但是实际应用中，梯度下降法通常能够得到令人满意的结果，最后，需要再次强调的是，要将参数进行随机初始化，而不是全部置为0.如果所有参数都用相同的值作为初值，那么所有隐藏层单元最终会得到与输入值有关的，相同的函数（也就是说，对于所有反向传播算法 Backpropagation Algorithm ，都会取相同的值，那么对于任何输入都会有：）。随机初始化的目的是使对称失效。

梯度下降法中每一次迭代都按照如下公式对参数W和b进行更新：

其中反向传播算法 Backpropagation Algorithm 是学习速率。其中关键步骤是计算偏导数。我们现在来讲一下反向传播算法，它是计算偏导数的一种有效方法。

我们首先讲一下如何使用反向传播算法来计算反向传播算法 Backpropagation Algorithm 和，这两项是单个样例的代价函数的偏导数。

一旦我们求出该偏导数，就可以推导出整体代价函数反向传播算法 Backpropagation Algorithm 的偏导数：

以上两行公式稍有不同，第一行比第二行多出一项，是因为权重衰减是作用于反向传播算法 Backpropagation Algorithm 而不是。

反向传播算法的思路如下：给定一个样例（x,y），我们首先进行“前向传导”运算，计算出网络中所有激活值（我们用反向传播算法 Backpropagation Algorithm 表示第层第单元的激活值（输出值）。）包括的输出值（）。之后，针对第针对第层的每一个节点，我们计算出其“残差” ，，该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点，我们可以直接算出网络产生的激活值与实际值之间的差距，我们将这个差距定义为反向传播算法 Backpropagation Algorithm （第层表示输出层）。对于隐藏单元我们如何处理呢？我们将基于节点（译者注：第层节点）残差的加权平均值计算，这些节点以作为输入。下面将给出反向传导算法的细节：

1、进行前馈传导计算，利用前向传导公式，得到反向传播算法 Backpropagation Algorithm 直到输出层的激活值。

2、对于第反向传播算法 Backpropagation Algorithm 层（输出层）的每个输出单元，我们根据以下公式计算残差：

[译者注：

]

3、对反向传播算法 Backpropagation Algorithm 的各个层，第层的第个节点的残差计算方法如下：

{译者注：

将上式中的反向传播算法 Backpropagation Algorithm 与的关系替换为与的关系，就可以得到：

以上逐次从后向前求导的过程即为“反向传导”的本意所在。]

4、计算我们需要的偏导数，计算方法如下：

最后，我们用矩阵-向量表示法重写以上算法。我们使用“ 反向传播算法 Backpropagation Algorithm ” 表示向量乘积运算符（在Matlab或Octave里用“.*”表示，也称作阿达马乘积）。若，则。在上一个教程中我们扩展了的定义，使其包含向量运算，这里我们也对偏导数也做了同样的处理（于是又有反向传播算法 Backpropagation Algorithm ）。