Machine Learning - 第5周（Neural Networks: Learning）

The Neural Network is one of the most powerful learning algorithms (when a linear classifier doesn't work, this is what I usually turn to), and this week's videos explain the 'backprogagation' algorithm for training these models. In this week's programming assignment, you'll also get to implement this algorithm and see it work for yourself. The Neural Network programming exercise will be one of the more challenging ones of this class.

Neural Networks: Learning神经网络：学习

Cost Function and Backpropagation代价函数和反向传播

Cost Function代价函数

神经网络是当今最强大的学习算法之一在本节课视频和后面几次课程中我将开始讲述一种在给定训练集下为神经网络拟合参数的学习算法 正如我们讨论大多数学习算法一样我们准备从拟合神经网络参数的 代价函数开始讲起

我准备重点讲解 神经网络在分类问题 中的应用假设我们有一个如左边所示的 神经网络结构 然后假设我们有一个像这样的训练集 m个训练样本x(i) y(i) 我用大写字母 L 来表示这个神经网络结构的总层数 所以对于左边的网络结构我们得到 L等于4 然后我准备用 sl表示第L层的单元的数量也就是神经元的数量 这其中不包括L层的偏差单元 比如说我们得到s1 也就是输入层 是等于3的单元 s2在这个例子里等于5个单位然后输出层s4 也就是sl 因为L本身等于4 在左边这个例子中输出层有4个单位

我们将会讨论两种分类问题 第一种是二元分类 在这里y只能等于0或1 在这个例子中我们有一个输出单元 上面这个神经网络的有四个输出单元但是如果我们用二元分类的话我们就只能有一个输出结果也就是计算出来的h(x) 神经网络的输出结果 h(x)就会是一个实数在这类问题里输出单元的个数 sl L同样代表最后一层的序号因为这就是我们在这个网络结构中的层数 所以我们在输出层的单元数目就将是1 在这类问题里为了简化记法我会把K设为1 这样你可以把K看作输出层的单元数目

我们要考虑的第二类分类问题就是多类别的分类问题 也就是会有K个不同的类比如说如果我们有四类的话我们就用这样的表达形式来代表y 在这类问题里我们就会有K个输出单元我们的假设输出就是一个K维向量输出单元的个数就等于K 通常这类问题里我们都有K大于或等于3 因为如果只有两个类别我们就不需要使用这种一对多的方法我们只有在K大于或者等于3个类的时候才会使用这种一对多的方法因为如果只有两个类别我们就只需要一个输出单元就可以了

Machine Learning - 第5周（Neural Networks: Learning）

现在我们来为神经网络定义代价函数 我们在神经网络里使用的代价函数应该是逻辑回归里使用的代价函数的一般化形式 对于逻辑回归而言我们通常使代价函数 J(θ) 最小化也就是-1/m 乘以后面这个代价函数 然后再加上这个额外正则化项 这里是一个 j从1到n的求和形式因为我们并没有把偏差项 0正则化

对于一个神经网络来说我们的代价函数是这个式子的一般化形式 这里不再是仅有一个逻辑回归输出单元取而代之的是K个所以这是我们的代价函数神经网络现在输出了在K维的向量这里K可以取到1 也就是原来的二元分类问题 我准备用这样一个记法 h(x)带下标i 来表示第i个输出也就是h(x)是一个K维向量下标 i 表示选择了神经网络输出向量的第i个元素我的代价函数 J(θ) 将成为下面这样的形式 -1/m乘以一个类似于我们在逻辑回归里所用的 求和项 除了这里我们求的是 k从1到K的所有和这个求和项主要是 K个输出单元的求和所以如果我有四个输出单元也就是我的神经网络最后一层有四个输出单元那么这个求和就是这个求和项就是求k等于从1到4的每一个的逻辑回归算法的代价函数 然后按四次输出的顺序 依次把这些代价函数 加起来 所以你会特别注意到这个求和符号应用于 yk和hk 因为我们主要是讨论 K个输出单元并且把它和yk的值相比 yk的值就是这些向量里表示它应当属于哪个类别的量

最后这里的第二项这就是类似于我们在逻辑回归里所用的 正则化项 这个求和项看起来确实非常复杂它所做的就是把这些项全部相加 也就是对所有i j和l 的θji的值都相加正如我们在逻辑回归里一样这里要除去那些对应于偏差值的项那些项我们是不加进去的那些项我们是不加进去的具体地说我们不把那些对于i等于0的项加入其中这是因为当我们计算神经元的激励值时我们会有这些项 θi0 加上θi1 乘以x1 再加上等等等等这里我认为我们可以加上2的上标如果这是第一个隐含层的话所以这些带0的项所以这些带0的项对应于乘进去了 x0 或者是a0什么的这就是一个类似于偏差单元的项类比于我们在做逻辑回归的时候我们就不应该把这些项加入到正规化项里去因为我们并不想正规化这些项并把这些项设定为0 但这只是一个合理的规定即使我们真的把他们加进去了也就是i从0加到sL 这依然成立并且不会有大的差异但是这个"不把偏差项正规化" 的规定可能只是会更常见一些

好了这就是我们准备应用于神经网络的代价函数 在下一个视频中我会开始讲解一个算法来最优化这个代价函数

Backpropagation Algorithm反向传播算法

在上一个视频里我们讲解了 神经网络的代价函数 在这个视频里让我们来说说让代价函数最小化的算法 具体来说我们将主要讲解反向传播算法

这个就是我们上一个视频里写好的 代价函数 我们要做的就是设法找到参数 使得J(θ)取到最小值 为了使用梯度下降法或者其他某种高级优化算法 我们需要做的就是写好一个可以通过输入参数 θ 然后计算 J(θ) 和这些 偏导数项的代码记住这些神经网络里对应的参数也就是 θ 上标 (l) 下标 ij 的参数这些都是实数所以这些都是我们需要计算的 偏导数项 为了计算代价函数 J(θ) 我们就是用上面这个公式所以我们在本节视频里大部分时间想要做的都是重点关注如何计算这些偏导数项

我们从只有一个训练样本的情况开始说起假设我们整个训练集只包含一个训练样本也就是实数对我这里不写成x(1) y(1) 就写成这样把这一个训练样本记为 (x, y) 让我们粗看一遍使用这一个训练样本来计算的顺序 首先我们应用前向传播方法来计算一下在给定输入的时候假设函数是否会真的输出结果具体地说这里的 a(1) 就是第一层的激励值 也就是输入层在的地方所以我准备设定他为然后我们来计算 z(2) 等于 θ(1) 乘以 a(1) 然后 a(2) 就等于 g(z(2)) 函数其中g是一个S型激励函数 这就会计算出第一个 隐藏层的激励值 也就是神经网络的第二层我们还增加这个偏差项 接下来我们再用2次 前向传播 来计算出 a(3) 和最后的 a(4) 同样也就是假设函数 h(x) 的输出所以这里我们实现了把前向传播 向量化 这使得我们可以计算神经网络结构里的 每一个神经元的激励值

接下来为了计算导数项 我们将采用一种叫做反向传播(Backpropagation)的算法 反向传播算法从直观上说就是对每一个结点我们计算这样一项 δ下标 j 上标(l) 这就用某种形式代表了第 l 层的第 j 个结点的误差 我们还记得 a 上标 (l) 下标 j 表示的是第 l 层第 j 个单元的激励值 所以这个 δ 项在某种程度上就捕捉到了我们在这个神经节点的激励值的误差所以我们可能希望这个节点的激励值稍微不一样具体地讲我们用右边这个有四层的神经网络结构做例子所以这里大写 L 等于4 对于每一个输出单元我们准备计算δ项所以第四层的第j个单元的δ就等于这个单元的激励值减去训练样本里的真实值0 所以这一项可以同样可以写成 h(x) 下标 j 所以 δ 这一项就是假设输出和训练集y值之间的差这里 y 下标 j 就是我们标记训练集里向量的第j个元素的值顺便说一下如果你把 δ a 和 y 这三个都看做向量那么你可以同样这样写 向量化地实现 也就是 δ(4)等于 a(4) 减去 y 这里每一个变量也就是 δ(4) a(4) 和 y 都是一个向量并且向量维数等于输出单元的数目所以现在我们计算出网络结构的误差项 δ(4) 我们下一步就是计算网络中前面几层的误差项 δ 这个就是计算 δ(3) 的公式 δ(3) 等于 θ(3) 的转置乘以 δ(4) 然后这里的点乘这是我们从 MATLAB 里知道的对 y 元素的乘法操作所以 θ(3) 转置乘以 δ(4) 这是一个向量 g'(z(3)) 同样也是一个向量所以点乘就是两个向量的元素间对应相乘其中这一项 g'(z(3)) 其实是对激励函数 g 在输入值为 z(3) 的时候所求的导数如果你掌握微积分的话你可以试着自己解出来然后可以简化得到我这里的结果但是我只是从实际角度告诉你这是什么意思你计算这个 g' 这个导数项其实是 a(3) 点乘 (1-a(3)) 这里a(3)是激励向量 1是以1为元素的向量 a(3) 又是一个对那一层的激励向量

接下来你应用一个相似的公式来计算 δ(2) 同样这里可以利用一个相似的公式只是在这里是 a(2) 这里我并没有证明但是如果你懂微积分的话证明是完全可以做到的那么这个表达式从数学上讲就等于激励函数 g函数的偏导数 这里我用 g‘来表示最后就到这儿结束了这里没有 δ(1) 项因为第一次对应输入层那只是表示我们在训练集观察到的所以不会存在误差这就是说我们是不想改变这些值的所以这个例子中我们的 δ 项就只有第2层和第3层

反向传播法这个名字源于我们从 输出层开始计算 δ项然后我们返回到上一层 计算第三隐藏层的 δ项 接着我们再往前一步来计算 δ(2) 所以说我们是类似于把输出层的误差 反向传播给了第3层然后是再传到第二层这就是反向传播的意思

最后这个推导过程是出奇的麻烦的出奇的复杂但是如果你按照这样几个步骤计算就有可能简单直接地完成复杂的数学证明如果你忽略标准化所产生的项我们可以证明我们要求的偏导数项恰好就等于激励函数和这些 δ 项这里我们忽略了 λ 或者说标准化项 λ 是等于 0 我们将在之后完善这一个关于正则化项

所以到现在我们通过 反向传播 计算这些δ项可以非常快速的计算出所有参数的偏导数项 好了现在讲了很多细节了现在让我们把所有内容整合在一起然后说说 如何实现反向传播算法来计算关于这些参数的偏导数 当我们有一个非常大的训练样本时而不是像我们例子里这样的一个训练样本

我们是这样做的假设我们有 m 个样本的训练集正如此处所写我要做的第一件事就是固定这些 带下标 i j 的 Δ 这其实是 大写的希腊字母 δ 我们之前写的那个是小写这个三角形是大写的 Δ 我们将对每一个i 和 j 对应的 Δ 等于0 实际上这些大写 Δij 会被用来计算 偏导数项 就是 J(θ) 关于 θ 上标(l) 下标 i j 的偏导数所以正如我们接下来看到的这些 δ 会被作为累加项慢慢地增加以算出这些偏导数

接下来我们将遍历我们的训练集 我们这样写写成 For i = 1 to m 对于第 i 个循环而言我们将取训练样本 (x(i), y(i)) 我把1999年的值画在一列里我们要做的第一件事是设定a(1) 也就是输入层的激励函数设定它等于 x(i) x(i) 是我们第 i 个训练样本的输入值接下来我们运用正向传播 来计算第二层的激励值然后是第三层第四层一直这样到最后一层 L层接下来我们将用我们这个样本的输出值 y(i) 来计算这个输出值所对应的误差项 δ(L) 所以 δ(L) 就是假设输出减去目标输出接下来我们将运用反向传播算法来计算 δ(L-1) δ(L-2) 一直这样直到 δ(2) 再强调一下这里没有 δ(1) 因为我们不需要对输入层考虑误差项

最后我们将用这些大写的 Δ 来累积我们在前面写好的 偏导数项 顺便说一下如果你再看下这个表达式你可以把它写成向量形式 具体地说如果你把 δij 看作一个矩阵 i j代表矩阵中的位置那么如果 δ(L) 是一个矩阵我们就可以写成 Δ(l) 等于 Δ(l) 加上小写的 δ(l+1) 乘以 a(l) 的转置这就是用向量化的形式实现了对所有 i 和 j 的自动更新值最后执行这个 for 循环体之后我们跳出这个 for 循环然后计算下面这些式子我们按照如下公式计算大写我们对于 j=0 和 j≠0 分两种情况讨论在 j=0 的情况下对应偏差项所以当 j=0 的时候这就是为什么我们没有写额外的标准化项

最后尽管严格的证明对于你来说太复杂 你现在可以说明的是一旦你计算出来了这些这就正好是代价函数对每一个参数的偏导数所以你可以把他们用在 梯度下降法 或者其他一种更高级的 优化算法上这就是反向传播算法 以及你如何计算神经网络代价函数的偏导数我知道这个里面细节琐碎步骤繁多但是在后面的编程作业和后续的视频里我都会给你一个清晰的总结这样我们就可以把算法的所有细节拼合到一起这样当你想运用反向传播算法 来计算你的神经网络的代价函数 关于这些参数的偏导数的时候你就会清晰地知道你要的是什么

Backpropagation Intuition

在上一段视频中我们介绍了反向传播算法 对很多人来说当第一次看到这种算法时第一印象通常是哇哦这个算法需要那么多繁杂的步骤 简直是太复杂了实在不知道这些步骤到底应该如何合在一起使用就好像一个黑箱里面充满了复杂的步骤如果你对反向传播算法也有这种感受的话这其实是正常的 相比于线性回归算法 和逻辑回归算法而言从数学的角度上讲反向传播算法似乎并不简洁对于反向传播这种算法其实我已经使用了很多年了但即便如此即使是现在我也经常感觉自己对反向传播算法的理解并不是十分深入

对于反向传播算法究竟是如何执行的并没有一个很直观的理解做过编程练习的同学应该可以感受到这些练习或多或少能帮助你将这些复杂的步骤梳理了一遍 巩固了反向传播算法具体是如何实现的 这样你才能自己掌握这种算法在这段视频中我想更加深入地讨论一下反向传播算法的这些复杂的步骤并且希望给你一个更加全面直观的感受 理解这些步骤究竟是在做什么也希望通过这段视频你能理解它至少还是一个合理的算法 但可能你即使看了这段视频你还是觉得反向传播依然很复杂依然像一个黑箱太多复杂的步骤依然感到有点神奇这也是没关系的我说了即使是我接触反向传播这么多年了有时候仍然觉得这是一个难以理解的算法但还是希望这段视频能有些许帮助

为了更好地理解 反向传播算法 我们再来仔细研究一下前向传播的原理 幻灯片所示的神经网络包含两个输入单元这不包括偏差单元在第二层有两个隐藏单元在下一层也有两个隐藏单元最后的输出层有一个输出单元再提醒一下这里说的2 2 2 都不算顶上附加的偏差单元+1 为了更清楚地展示前向传播我想把这个网络画得稍微不同一些具体来讲我把这个神经网络的节点都画成椭圆型以便在节点里面写字在进行前向传播时我们可以用一个具体的例子说明

假如说训练样本 x(i) y(i) 那么这里的 x(i) 将被传入输入层 因此这里就是 x(i)1 和 x(i)2 这是我们输入层的值那么当我们进行前向传播 传播到第一个隐藏层时我们的做法是算出 z(2)1 和 z(2)2 因此这两个值是输入单元的加权总和接下来我们将S型的逻辑函数 和S型的激励函数应用到z值上得出了这样的激励值因此我们得到 a(2)1 和 a(2)2 的值然后再做一次前向传播这里的 z(3)1 应用S型的逻辑函数和激励函数得到 a(3)1 类似这样进行下去最后我们得到 z(4)1 应用激励函数得到 a(4)1 这也是这个网络的输出单元的值我把这个箭头擦掉这样留点书写空间那么如果你仔细看这里的计算关注这一层的隐藏单元 我们知道了这个权值这里用桃红色表示的这是我们的权值 θ(2)10 这里的角标不重要而这里的权值我用红色来标记的是θ(2)11 而这里的权值我用青色表示的是θ(2)12 因此要计算 z(3)1 z(3)1 的值等于这个桃红色的权值乘以这个值也就是θ(2)10 乘上1 加上这个红色的权值乘以这个值也就是θ(2)11 乘上a(2)1 最后是青色的权值乘上这个值也就是 θ(2)12乘以a(2)1 那么这就是前向传播 事实上正如我们后面将会看到的 反向传播的做法其过程非常类似于此 只有计算的方向不同而已 与这里前向传播的方向从左至右不同的是反向传播的算法中计算的方向是从右往左的但计算的过程是完全类似的在接下来的两页幻灯片中我会详细地讲解

为了更好地理解 反向传播算法的原理 我们把目光转向代价函数 这个代价函数对应的情况是只有一个输出单元如果我们有不止一个输出单元的话只需要对所有的输出单元进行一次求和运算但如果只有一个输出单元时代价函数就是这样我们用同一个样本同时来做正向和反向传播那么请注意这组训练样本 x(i) y(i) 注意这种只有一个输出单元的情况那么这里的 y(i) 就是一个实数如果不考虑正则化也就是说 λ 等于0 因此最后的正则化项就没有了好的那么如果你观察这个求和运算括号里面与第i个训练样本对应的代价项也就是说和训练样本 x(i) y(i) 对应的代价项将由这个式子确定因此第 i 个样本的代价值可以写成如下的形式而这个代价函数所扮演的角色可以看作是平方误差因此我们不必关心这个复杂的表达式当然如果你愿意你可以把 cost(i) 想成是该神经网络输出值与实际值的差的平方就像在逻辑回归中我们选择稍微复杂的一点的代价函数 log函数但为了容易理解可以把这个代价函数看作是某种平方误差函数因此这里的cos(i) 表征了该神经网络是否能准确地预测样本i的值也就是输出值和实际观测值y(i)的接近程度

现在我们来看反向传播是怎么做的 一种直观的理解是反向传播算法就是在计算所有这些δ(i)j项并且我们可以把它们看作是这些激励值的 "误差" 注意这些激励值是第 l 层中的第 j 项更正式一点的说法是也许那些比较熟悉微积分的同学更能理解更正式地说 δ 项实际上是关于 z(l)j 的偏微分也就是 cost 函数关于我们计算出的输入项的加权和也就是 z 项的偏微分所以实际上这个代价函数是一个关于标签 y 和这个 h(x) 的值也就是神经网络输出值的函数如果我们观察该网络内部的话把这些 z(l)j 项稍微改一点点那就将影响到该神经网络的输出并且最终会改变代价函数的值当然还是那句话讲这些只是对那些熟悉微积分的同学如果你对偏微分很熟悉的话你能理解这些δ项是什么它们实际上是代价函数关于这些中间项的偏微分因此它们度量着我们对神经网络的权值做多少的改变对中间的计算量影响是多少进一步地对整个神经网络的输出 h(x) 影响多少以及对整个的代价值影响多少可能刚才讲的偏微分的这种理解不太容易理解没关系不用偏微分的思想我们同样也可以理解我们再深入一点研究一下反向传播的过程对于输出层如果我们设置δ项比如说 δ(4)1 等于 y(i) 假设我们进行第i个训练样本的正向传播和反向传播那么应该等于 y(i) 减去 a(4)1 因此这实际是两者的偏差也就是 y 的实际值减去预测值得到的差值这样我们就算出了 δ(4)1 的值接下来我们要对这些值进行反向传播我稍后将详细解释计算出前一层的 δ 项的值那么这里我们计算出 δ(3)1 和 δ(3)2 然后同样的再进行下一层的反向传播这一次计算出 δ(2)1 以及 δ(2)2 反向传播的计算和进行前向传播几乎相同唯一的区别就是方向相反我想表达的是我们来看我们是怎样得到 δ(2)2 的值的我们要计算 δ(2)2 与前向传播类似我要对一些权值进行标记那么这条权值用桃红色表示的就是 θ(2)12 然后这根箭头表示的权值我用红色来标记它代表的是 θ(2)22 所以我们来看 δ(2)2是如何得到的实际上我们要做的是我们要用这个 δ 值和权值相乘然后加上这个 δ 值乘以权值的结果也就是说它其实是这些δ值的加权和权值是这些对应边的强度让我把这些具体的值写出来 δ(2)2 的值等于桃红色的这条权值 θ(2)12 乘以δ(3)1 加上下一个是用红色标记的权值 θ(2)22 乘上δ(3)2 所以简单地说就是红色的权值乘以它指向的值加上桃红色的权值乘以它指向的值这样我们就得到了上一层的 δ 值再举一个例子我们来看这个 δ 值是怎么得到的呢？仍然是类似的过程如果这个权值用绿色表示的这根箭头假如这个权值是θ(3)12 那么 δ(3)2 将等于这条绿色的权值 θ(3)12 乘以 δ(4)1 另外顺便提一下目前为止我写的 δ 值仅仅是隐藏层中的没有包括偏差单元+1 包不包括偏差单元取决于你如何定义这个反向传播算法或者取决于你怎样实现这个算法你也可以对这些偏差单元计算 δ 的值这些偏差单元总是取为+1的值一直都这么取我们不能也没有必要更改偏差单元的值所以还是取决于你实现反向传播的方法通常说来我在执行反向传播的时候我是算出了这些偏差单元的δ值但我通常忽略掉它们而不把它们代入计算因为它们其实并不是计算那些微分的必要部分

好了我希望这节课能给你一个有关反向传播算法的实现过程 更深刻的印象我知道可能这些过程还是看起来很神奇很“黑箱” 不要紧在后面的课程中在"putting it together"视频中我还会再介绍一点有关反向传播的内容但是很遗憾的是要想完全看清并且理解这个算法的确是很困难的但我想幸运的是多年来很多人都能顺利地运用反向传播算法并且如果你执行一遍整个算法 你就能掌握这种很强大的机器学习算法尽管它内部的工作原理的确显得很难观察

Backpropagation in Practice反向传播练习

Implementation Nonrolling Parameters

在上一段视频中我们谈到了怎样使用反向传播算法 计算代价函数的导数 在这段视频中我想快速地向你介绍一个细节的实现过程 怎样把你的参数从矩阵展开成向量以便我们在高级最优化步骤中的使用需要

具体来讲你执行了代价函数costFunction 输入参数是theta 函数返回值是代价函数以及导数值 然后你可以将返回值传递给高级最优化算法fminunc 顺便提醒 fminunc并不是唯一的算法你也可以使用别的优化算法但它们的功能都是取出这些输入值 @costFunction 以及theta值的一些初始值并且这些程序都假设theta 和这些theta初始值都是参数向量也许是n或者n+1阶但它们都是向量同时假设这个代价函数第二个返回值也就是gradient值也是n阶或者n+1阶所以它也是一个向量这部分在我们使用逻辑回归的时候运行顺利但现在对于神经网络我们的参数将不再是向量而是矩阵了因此对于一个完整的神经网络我们的参数矩阵为θ(1) θ(2) θ(3) 在Octave中我们可以设为 Theta1 Theta2 Theta3 类似的这些梯度项gradient 也是需要得到的返回值那么在之前的视频中我们演示了如何计算这些梯度矩阵它们是D(1) D(2) D(3) 在Octave中我们用矩阵D1 D2 D3来表示在这节视频中我想很快地向你介绍怎样取出这些矩阵并且将它们展开成向量以便它们最终成为恰当的格式能够传入这里的Theta 并且得到正确的梯度返回值gradient 具体来说假设我们有这样一个神经网络其输入层有10个输入单元隐藏层有10个单元最后的输出层只有一个输出单元因此s1等于第一层的单元数 s2等于第二层的单元数 s3等于第三层的单元个数在这种情况下矩阵θ的维度和矩阵D的维度将由这些表达式确定比如说 θ(1)是一个10x11的矩阵以此类推因此在Octave中如果你想将这些矩阵转化为向量那么你要做的是取出你的Theta1 Theta2 Theta3 然后使用这段代码这段代码将取出三个θ矩阵中的所有元素也就是说取出Theta1 的所有元素 Theta2的所有元素 Theta3的所有元素然后把它们全部展开成为一个很长的向量也就是thetaVec 同样的第二段代码将取出D矩阵的所有元素然后展开成为一个长向量被叫做DVec 最后如果你想从向量表达返回到矩阵表达式的话你要做的是比如想再得到Theta1 那么取thetaVec 抽出前110个元素因此 Theta1就有110个元素因为它应该是一个10x11的矩阵所以抽出前110个元素然后你就可以 reshape矩阵变维命令来重新得到Theta1 同样类似的要重新得到Theta2矩阵你需要抽出下一组110个元素并且重新组合然后对于Theta3 你需要抽出最后11个元素然后执行reshape命令重新得到Theta3 以下是这一过程的Octave演示对于这一个例子让我们假设Theta1 为一个10x11的单位矩阵因此它每一项都为1 为了更易看清让我们把Theta2设为一个10行11列矩阵每个元素都为2 然后设Theta3 是一个1x11的矩阵每个元素都为3 因此这样我们得到三个独立的矩阵 Theta1 Theta2 Theta3 现在我们想把所有这些矩阵变成一个向量 thetaVec = ; 好的注意中间有冒号像这样现在thetaVec矩阵就变成了一个很长的向量含有231个元素如果把它打出来我们就能看出它是一个很长的向量包括第一个矩阵的所有元素第二个矩阵的所有元素以及第三个矩阵的所有元素如果我想重新得到我最初的三个矩阵我可以对thetaVec使用reshape命令抽出前110个元素将它们重组为一个10x11的矩阵这样我又再次得到了Theta1矩阵然后我再取出接下来的110个元素也就是111到220号元素我就又重组还原了第二个矩阵最后再抽出221到最后一个元素也就是第231个元素然后重组为1x11的矩阵我就又得到了Theta3矩阵为了使这个过程更形象下面我们来看怎样将这一方法应用于我们的学习算法假设说你有一些初始参数值 θ(1) θ(2) θ(3) 我们要做的是取出这些参数并且将它们展开为一个长向量我们称之为initialTheta 然后作为theta参数的初始设置传入函数fminunc 我们要做的另一件事是执行代价函数costFunction 实现算法如下代价函数costFunction 将传入参数thetaVec 这也是包含我所有参数的向量是将所有的参数展开成一个向量的形式因此我要做的第一件事是我要使用 thetaVec和重组函数reshape 因此我要抽出thetaVec中的元素然后重组以得到我的初始参数矩阵 θ(1) θ(2) θ(3) 所以这些是我需要得到的矩阵因此这样我就有了一个使用这些矩阵的更方便的形式这样我就能执行前向传播和反向传播来计算出导数以求得代价函数的J(θ) 最后我可以取出这些导数值然后展开它们让它们保持和我展开的θ值同样的顺序我要展开D1 D2 D3 来得到gradientVec 这个值可由我的代价函数返回它可以以一个向量的形式返回这些导数值现在我想对怎样进行参数的矩阵表达式和向量表达式之间的转换有了一个更清晰的认识使用矩阵表达式的好处是当你的参数以矩阵的形式储存时你在进行正向传播和反向传播时你会觉得更加方便当你将参数储存为矩阵时一大好处是充分利用了向量化的实现过程相反地向量表达式的优点是如果你有像thetaVec或者DVec这样的矩阵当你使用一些高级的优化算法时这些算法通常要求你所有的参数都要展开成一个长向量的形式希望通过我们刚才介绍的内容你能够根据需要更加轻松地在两种形式之间转换

Gradient Checking

在之前的视频中我们讨论了如何使用前向传播和反向传播计算神经网络中的导数但反向传播作为一个有很多细节的算法在实现的时候会有点复杂而且有一个不好的方面是在实现反向传播时会遇到很多细小的错误所以如果你把它和梯度下降法或者其他优化算法一起运行时可能看起来它运行正常并且你的代价函数J 最后可能在每次梯度下降法迭代时都会减小即使在实现反向传播时有一些小错误可能也会检查不出来所以它看起来是 J(θ)在减小但是可能你最后得到的神经网络但是可能你最后得到的神经网络误差比没有错误的要高而且你很可能就是不知道你的结果是这些小错误导致的那你应该怎么办呢有一个想法叫梯度检验 (Gradient Checking) 可以解决基本所有的问题我现在每次实现神经网络的反向传播或者类似的梯度下降算法或者其他比较复杂的模型我都会使用梯度检验如果你这么做它会帮你确定并且能很确信你实现的前向传播和反向传播或者其他的什么是100%正确的我见过很多这样解决那些实现时容易有有小错误的问题在之前的视频中我一般是让你相信我给出的计算 δ，d项等等之类的公式我要求你们相信他们计算的就是代价函数的梯度但一旦你们实现数值梯度检验也就是这节视频的主题你就能够自己验证你写的代码确实是在计算代价函数J的导数想法是这样的考虑下面这个例子假如我有一个函数J(θ) 并且我有个值 θ 在这个例子中我假定θ只是一个实数假如说我想估计这个函数在这一点的导数这个导数等于这条切线的斜率下面我要用数值方法来计算近似的导数这个是用数值方法计算近似导数的过程我要计算θ+ε 这个值在右边一点然后计算θ-ε 然后看这两个点用一条直线把它们连起来我要把这两个点用一条直线连起来然后用这条红色线的斜率来作为我导数的近似值真正的导数是这边这条蓝色线的斜率这看起来是个不错的近似在数学上这条红线的斜率等于这个垂直的高度除以这个这个水平的宽度所以上面这点是J(θ+ε) 这点是J(Θ-ε) 垂直方向上的差是J(θ+ε)-J(θ+ε) 也就是说水平的距离就是2ε 那么我的近似是这样的 J(θ) 对θ的导数近似等于 J(θ+ε)-J(θ-ε) 除以2ε 近似于J(θ+ε)-J(θ-ε) 除以2ε 通常我给ε取很小的值比如可能取 10的-4次方 ε的取值在一个很大范围内都是可行的实际上如果你让ε非常小那么数学上这里这项实际上就是导数就变成了函数在这点上准确的斜率只是我们不想用非常非常小的ε 因为可能会产生数值问题所以我通常让ε 差不多等于10^-4 顺便说一下可能你们有些学习者见过另外这种估计导数的公式右边这个叫做单侧拆分左边这个公式叫做双侧差分双侧差分给我们了一个稍微精确些的估计所以我通常用那个而不用这个单侧差分估计具体地说你在Octave中实现时要使用下面这个你的程序要调用 gradApprox来计算这个函数会通过这个公式 J(θ+ε)-J(θ-ε) 除以2ε 它会给出这点导数的数值估计在这个例子中它看起来是个很好的估计在之前的幻灯片中我们考虑了 θ是一个实数的情况现在我们看更普遍的情况 θ是一个向量参数假如说θ是n维向量它可能是我们的神经网络参数的展开形式所以θ是一个有有n个元素的向量 θ1到θn 我们可以用类似的想法来估计所有的偏导数项具体地说代价函数对第一个参数θ1取偏导数它可以用J 和增大的θ1得到所以你有J(θ1+ε) 等等减去J(θ1-ε) 然后除以2ε 对第二个参数θ2 取偏导数还是这样除了你要对 θ2+ε取J 这里还有θ2-ε 这样计算后面的偏导数直到θn 它的算法是对θn增加和减少ε 这些公式给出一个计算J 对任意参数求偏导数的数值近似的方法具体地说你要实现的是下面这个我们把这个用在Octave里来计算数值导数假如 i 等于 1 到 n n是我们的参数向量θ的维度我通常用参数的展开形式来计算你知道θ只是我们神经网络模型的一长列参数我让thetaPlus等于theta 然后给thetaPlus的第 i 项加上EPSILON 这就是基本的 thetaPlus等于theta 除了thetaPlus(i) 它会增加EPSILON 所以如果thetaPlus 等于θ1 θ2 等等那么θi 增加了EPSILON 然后一直到θn 这就是thetaPlus的作用类似的这两行给thetaMinus 类似地赋值只是θi不是加EPSILON 而是减EPSILON 最后你运行这个 gradApprox(i) 它会给你近似的 J(θ)对θi的偏导数我们实现神经网络时是这样用的我们要实现这个用for循环来计算代价函数对每个网络中的参数的偏导数然后我们用从反向传播得到的梯度 DVec是我们从反向传播中得到的导数所以后向传播是一个相对比较有效率的计算代价函数对参数的导数或偏导数的方法接下来我通常做的是计算数值导数就是gradApprox 我们刚从上面这里得到的来确定它等于或者近似于差距很小非常接近我们从反向传播得到的DVec 如果这两种计算导数的方法给你相同的结果或者非常接近结果最多几位小数的差距那么我就非常确信我实现的反向传播时正确的然后我把这些DVec向量用在梯度下降法或者其他高级优化算法里然后我就可以比较确信我计算的导数是正确的那么我的代码应该也可以正确运行可以很好地优化J(θ) 最后我想把所有的东西放在一起然后告诉你怎么实现这个数值梯度检验这是我通常做的第一件事是实现反向传播来计算DVec 这个步骤是我们之前的视频中讲过的计算DVec 它可能是这些矩阵的展开形式然后我要做的是用gradApprox实现数值梯度检验这是我在这节视频前面部分讲的在之前的幻灯片里然后你要确定DVec和gradApprox给出接近的结果可能最多差几位小数最后这是最重要的一步在使用你的代码去学习训练你的网络之前重要的是要关掉梯度检验不再使用这节视频前面讲的这个数值导数公式来计算 gradApprox 这样做的原因是我们之前讲的这个数值梯度检验代码是一个计算量非常大的程序它是一个非常慢的计算近似导数的方法而相对地我们之前讲的反向传播算法也就是那个 DVec的D(1) D(2) D(3)的算法反向传播是一个在计算导数上效率更高的方法所以当你确认了你的反向传播算法是正确的你应该关掉梯度检验就是不使用它再重申一下在为了训练分类器运行你的算法做很多次梯度下降或高级优化算法的迭代之前要确定你不再使用梯度检验的程序具体来说如果你在每次的梯度下降法迭代时都运行数值梯度检验或者你用在代价函数的内循环里你的程序会变得非常慢因为数值梯度检验程序比反向传播算法要慢很多反向传播算法就是我们计算 δ(4) δ(3) δ(2) 等等的那就是反向传播算法那是一个比梯度检验更快的计算导数的方法所以当你准备好了一旦你验证了反向传播的实现是正确的要确定你在训练算法时把它关闭了或者说不再使用梯度检验程序否则你的程序会运行得非常慢所以如果你计算用数值方法计算导数那是你用来确定反向传播实现是否正确的的方法当我实现反向传播或者类似的复杂模型的梯度下降算法我经常使用梯度检验这的确能帮我确定我的代码是正确的

Random Initialization

在前面的视频中我们总结了在神经网络的实现和训练中所有需要的知识这是最后一个我想要分享给你们的内容这就是随机初始化的思想当你运行一个算法例如梯度下降算法或者其他高级优化算法时我们需要给变量 θ 一些初始值所以对于那些高级的优化算法假设我们给变量 θ 传递一些初始值现在让我们考虑梯度下降同样我们需要把 θ 初始化成一些值接下来使用梯度下降方法慢慢地执行这些步骤使其下降使 θ 的函数 J 下降到最小那么 θ 的初始值该设置为多少呢？是否可以将 θ 的初始值设为全部是0的向量虽然说在逻辑回归时初始化所有变量为0 是可行的的但在训练神经网络时这样做是不可行的以训练这个神经网络为例照之前所说将所有变量初始化为0 如果是这样的话具体来说就是当初始化这条蓝色权重使这条被涂为蓝色的权重等于那条蓝色的权重他们都是0 这条被涂上红色的权重同样等于被涂上红色的这条权重同样这个权重这个被涂成绿色的权重也一样等于那条绿色的权重那么这就意味着这两个隐藏单元 a1 a2 是两个相同的关于输入的函数这样一来对每个样本进行训练最后a(2)1与a(2)2结果必然相等更多的原因我就不详细讲述了而由于这些权重相同同样可以证明这些 δ 值也相同具体地说 δ(2)1=δ(2)2 δ(2)1=δ(2)2 同时如果你更深入地挖掘一下你不难得出这些变量对参数的偏导数满足以下条件也就是代价函数的偏导数关于我用这两条蓝色的权重为例你不难发现这两个偏导数互为相等这也就意味着一旦更新梯度下降方法第一个蓝色权重也会更新等于学习率乘以这个式子第二条蓝色权重更新为学习率乘上这个式子但是这就意味着一旦更新梯度下降这两条蓝色权重的值在最后将将互为相等因此即使权重现在不都为0 但参数的值最后也互为相等同样地即使更新一个梯度下降这条红色的权重也会等于这条红色的权重也许会有些非0的值但两条红色的值会互为相等同样两条绿色的权重开始它们有不同的值最后这两个权重也会互为相等所以每次更新后两个隐藏单元的输入对应的参数将是相同的这只是说两条绿色的权重将一直相同两条红色的权重将一直相同两条蓝色的权重仍然相同这就意味着即使经过一次循环后梯度下降的循环后你们会发现两个隐藏单元仍然是两个完全相同的输入函数因此 a(1)2 仍然等于 a(2)2 回到这里一直持续运行梯度下降这两条蓝色的权重仍然相同两条红色的权重两条绿色的权重也是同样的情况这也就意味着这个神经网络的确不能计算更有价值的东西想象一下不止有两个隐藏单元而是有很多很多的隐藏单元这就是说所有的隐藏单元都在计算相同的特征所有的隐藏单元都通过完全相同的输入函数计算出来这是完全多余的表达因为这意味着最后的逻辑回归单元只会得到一种特征因为所有的逻辑回归单元都一样这样便阻止了神经网络学习出更有价值的信息为了解决这个问题神经网络变量初始化的方式采用随机初始化具体地说在上一张幻灯片中看到的所有权重相同的问题有时被我们也称为对称权重所以随机初始化解决的就是如何打破这种对称性所以我们需要做的是对 θ 的每个值进行初始化范围在 -ɛ 到 +ɛ 之间这个方括号意味着 -ɛ 到 +ɛ 之间因此变量的权重通常初始化为 -ɛ 到 +ɛ 之间的任意一个数我在 Octave 里编写了这样的代码我之前讲过的 Theta1 等于这个等式所以这个 10×11 的随机矩阵这个 rand 就是用来得出一个任意的 10×11 维矩阵矩阵中的所有值都介于0到1之间所以这些实数取0到1之间的连续值因此如果取0到1之间的一个数和 2ε 相乘再减去 ε 然后得到一个在 -ε 到 +ε 的数顺便说一句这里的这个 ε 在进行梯度检查中用的不是一回事因此在进行数值梯度检查时会加一些 ε 值给 θ 这些值与这里的ε 没有关系这就是为什么我要在这里用 INIT_EPSILON 表示仅仅是为了区分在梯度检查中使用的 EPSILON 值当然类似的如果想要初始化θ2 为任意一个1×11的矩阵可以使用这里的这段代码总结来说为了训练神经网络应该对权重进行随机初始化初始化为 --ε到+ε间接近于0的小数然后进行反向传播执行梯度检查使用梯度下降或者使用高级的优化算法试着使代价函数 J 达到最小从某个随机选取的参数 θ 开始通过打破对称性的过程我们希望梯度下降或者其他高级优化算法可以找到θ的最优值

Putting It Together

我们已经用了几节视频的内容来介绍神经网络算法在这段视频中我想结合我们所讲的所有这些内容来做一个总体的回顾看看这些零散的内容相互之间有怎样的联系以及神经网络学习算法的总体实现过程当我们在训练一个神经网络时我们要做的第一件事就是搭建网络的大体框架这里我说的框架意思是神经元之间的连接模式我们可能会从以下几种结构中选择第一种神经网络的结构是包含三个输入单元五个隐藏单元和四个输出单元第二种结构是三个输入单元作为输入层两组五个隐藏单元作为隐藏层四个输出单元的输出层然后第三种是3 5 5 5 其中每个隐藏层包含五个单元然后是四个输出单元这些就是可能选择的结构每一层可以选择多少个隐藏单元以及可以选择多少个隐藏层这些都是你构建时的选择那么我们该如何做出选择呢？首先我们知道我们已经定义了输入单元的数量一旦你确定了特征集x 对应的输入单元数目也就确定了也就是等于特征x{i}的维度输入单元数目将会由此确定如果你正在进行多类别分类那么输出层的单元数目将会由你分类问题中所要区分的类别个数确定值得提醒的是如果你的多元分类问题 y的取值范围是在1到10之间那么你就有10个可能的分类别忘了把你的y 重新写成向量的形式所以现在我们的y不是一个数了我们重新把y写成这种形式的向量第二个分类我们可以写成这样的向量所以比如说如果要表达第五个分类也就是说y等于5 那么在你的神经网络中就不能直接用数值5来表达因为这里的输出层有十个输出单元你应该用一个向量来表示这个向量的第五个位置值是1 其它的都是0 所以对于输入单元和输出单元数目的选择还是比较容易理解的而对于隐藏单元的个数单元的个数以及隐藏层的数目我们有一个默认的规则那就是只使用单个隐藏层所以最左边所示的这种只有一个隐藏层的神经网络一般来说是最普遍的或者如果你使用不止一个隐藏层的话同样我们也有一个默认规则那就是每一个隐藏层通常都应有相同的单元数所以对于这个结构我们有两个隐藏层每个隐藏层都有相同的单元数都是5个隐藏单元这里也是一样我们有三个隐藏层每个隐藏层有相同的单元数都是5个隐藏单元但实际上通常来说左边这个结构是较为合理的默认结构而对于隐藏单元的个数通常情况下隐藏单元越多越好不过我们需要注意的是如果有大量隐藏单元计算量一般会比较大当然一般来说隐藏单元还是越多越好并且一般来说每个隐藏层所包含的单元数量还应该和输入x 的维度相匹配也要和特征的数目匹配可能隐藏单元的数目和输入特征的数量相同或者是它的二倍或者三倍四倍因此隐藏单元的数目需要和其他参数相匹配一般来说隐藏单元的数目取为稍大于输入特征数目都是可以接受的希望这些能够给你在选择神经网络结构时提供一些有用的建议和选择的参考如果你遵循了这些建议你一般会得到比较好的模型结构但是在以后的一系列视频中特别是在我谈到学习算法的应用时我还会更详细地介绍如何选择神经网络的结构后面的视频中我还会着重介绍怎样正确地选择隐藏层的个数以及隐藏单元的数目等等下面我们就来具体介绍如何实现神经网络的训练过程这里一共有六个步骤这页幻灯片中罗列了前四步剩下的两步放在下一张幻灯片中首先第一步是构建一个神经网络然后随机初始化权值通常我们把权值初始化为很小的值接近于零然后我们执行前向传播算法也就是对于该神经网络的任意一个输入x(i) 计算出对应的h(x)值也就是一个输出值y的向量接下来我们通过代码计算出代价函数J(θ) 然后我们执行反向传播算法来算出这些偏导数或偏微分项也就是 J(θ)关于参数θ的偏微分具体来说我们要对所有训练集数据使用一个for循环进行遍历可能有部分同学之前听说过一些比较先进的分解方法可能不需要像这里一样使用 for循环来对所有 m个训练样本进行遍历但是这是你第一次进行反向传播算法所以我建议你最好还是使用一个for循环来完成程序对每一个训练样本进行迭代从x(1) y(1)开始我们对第一个样本进行前向传播运算和反向传播运算然后在第二次循环中同样地对第二个样本执行前向传播和反向传播算法以此类推直到最后一个样本因此在你第一次做反向传播的时候你还是应该用这样的for循环来实现这个过程其实实际上有复杂的方法可以实现并不一定要使用for循环但我非常不推荐在第一次实现反向传播算法的时候使用更复杂更高级的方法所以具体来讲我们对所有的 m个训练样本上使用了for循环遍历在这个for循环里我们对每个样本执行前向和反向算法具体来说就是我们把x(i) 传到输入层然后执行前向传播和反向传播这样我们就能得到该神经网络中每一层中每一个单元对应的所有这些激励值a(l) 和delta项接下来还是在for循环中让我画一个大括号来标明这个 for循环的范围当然这些是octave的代码括号里是for循环的循环体我们要计算出这些delta值也就是用我们之前给出的公式加上 delta(l+1) a(l)的转置矩阵最后外面的部分计算出的这些delta值这些累加项我们将用别的程序来计算出这些偏导数项那么这些偏导数项也应该考虑使用正则化项lambda值这些公式在前面的视频中已经给出那么搞定所有这些内容现在你就应该已经得到了计算这些偏导数项的程序了下面就是第五步了我要做的就是使用梯度检查来比较这些已经计算得到的偏导数项把用反向传播算法得到的偏导数值与用数值方法得到的估计值进行比较因此通过进行梯度检查来确保两种方法得到基本接近的两个值通过梯度检查我们能确保我们的反向传播算法得到的结果是正确的但必须要说明的一点是我们需要去掉梯度检查的代码因为梯度检查的计算非常慢最后我们就可以使用一个最优化算法比如说梯度下降算法或者说是更加高级的优化方法比如说BFGS算法共轭梯度法或者其他一些已经内置到fminunc函数中的方法将所有这些优化方法和反向传播算法相结合这样我们就能计算出这些偏导数项的值到现在我们已经知道了如何去计算代价函数我们知道了如何使用反向传播算法来计算偏导数那么我们就能使用某个最优化方法来最小化关于theta的函数值代价函数J(θ) 另外顺便提一下对于神经网络代价函数 J(θ)是一个非凸函数就是说不是凸函数因此理论上是能够停留在局部最小值的位置实际上梯度下降算法和其他一些高级优化方法理论上都能收敛于局部最小值但一般来讲这个问题其实并不是什么要紧的事尽管我们不能保证这些优化算法一定会得到全局最优值但通常来讲像梯度下降这类的算法在最小化代价函数 J(θ)的过程中还是表现得很不错的通常能够得到一个很小的局部最小值尽管这可能不一定是全局最优值最后梯度下降算法似乎对于神经网络来说还是比较神秘希望下面这幅图能让你对梯度下降法在神经网络中的应用产生一个更直观的理解这实际上有点类似我们早先时候解释梯度下降时的思路我们有某个代价函数并且在我们的神经网络中有一系列参数值这里我只写下了两个参数值当然实际上在神经网络里我们可以有很多的参数值 theta1 theta2 等等所有的这些都是矩阵是吧因此我们参数的维度就会很高了由于绘图所限我们不能绘出更高维度情况的图像所以这里我们假设这个神经网络中只有两个参数值实际上应该有更多参数那么代价函数J(θ) 度量的就是这个神经网络对训练数据的拟合情况所以如果你取某个参数比如说这个下面这点在这个点上 J(θ) 的值是非常小的这一点的位置所对应的参数theta的情况是对于大部分的训练集数据我的假设函数的输出会非常接近于y(i) 那么如果是这样的话那么我们的代价函数值就会很小而反过来如果我们取这个值也就是这个点对应的值那么对于大部分的训练集样本该神经网络的输出应该是远离 y(i)的实际值的也就是我们在训练集观测到的输出值因此像这样的点右边的这个点对应的假设就是神经网络的输出值在这个训练集上的测试值应该是远离y(i)的因此这一点对应着对训练集拟合得不好的情况而像这些点代价函数值很小的点对应的J(θ)值是很小的因此对应的是神经网络对训练集数据拟合得比较好的情况我想表达的是如果是这种情况的话那么J(θ)的值应该是比较小的因此梯度下降算法的原理是我们从某个随机的初始点开始比如这一点它将会不停的往下下降那么反向传播算法的目的就是算出梯度下降的方向而梯度下降的过程就是沿着这个方向一点点的下降一直到我们希望得到的点在这里我们希望找到的就是局部最优点所以当你在执行反向传播算法并且使用梯度下降或者更高级的优化方法时这幅图片很好地帮你解释了基本的原理也就是试图找到某个最优的参数值这个值使得我们神经网络的输出值与y(i)的实际值也就是训练集的输出观测值尽可能的接近希望这节课的内容能让你对这些零散的神经网络知识如何有机地结合起来能有一个更直观的认识但可能你即使看了这段视频你可能还是觉得有许多的细节不能完全明白为什么这么做或者说是这些是如何联系在一起的没关系神经网络和反向传播算法本身就是非常复杂的算法尽管我已经完全理解了反向传播算法背后的数学原理尽管我使用反向传播已经很多年了我认为这么多年的使用还算是成功的但尽管如此到现在我还是觉得我自己也并不是总能很好地理解反向传播到底在做什么以及最优化过程是如何使J(θ)值达到最小值的因为这本身的确是一个很难的算法很难让你感觉到自己已经完全理解它不像线性回归或者逻辑回归那样数学上和概念上都很简单反向传播算法不是那样的直观如果你也有同感那么完全不必担心但如果你自己动手完成一次反向传播算法你一定会发现这的确是一个很强大的学习算法如果你执行一下这个算法执行反向传播执行其中的优化方法你一定会发现反向传播算法能够很好的让更复杂维度更大的非线性的函数模型跟你的数据很好地拟合因此它的确是一种最为高效的学习算法

Application of Neural Networks

Autonomous Driving

在这段视频中我想向你介绍一个具有历史意义的神经网络学习的重要例子那就是使用神经网络来实现自动驾驶也就是说使汽车通过学习来自己驾驶接下来我将演示的这段视频是我从 Dean Pomerleau那里拿到的他是我的同事任职于美国东海岸的卡耐基梅隆大学在这部分视频中你就会明白可视化技术到底是什么在看这段视频之前我会告诉你可视化技术是什么在下面也就是左下方就是汽车所看到的前方的路况图像在图中你依稀能看出一条道路朝左延伸了一点又向右了一点然后上面的这幅图你可以看到一条水平的菜单栏显示的是驾驶操作人所选择的方向就是这里的这条白亮的区段显示的就是人类驾驶者选择的方向比如最左边的区段对应的操作就是向左急转而最右端则对应向右急转的操作因此稍微靠左的区段也就是这里中心稍微向左一点的位置则表示在这一点上人类驾驶者的操作是慢慢的向左拐这幅图的第二部分对应的就是学习算法选出的行驶方向并且类似的这一条白亮的区段显示的就是神经网络在这里选择的行驶方向是稍微的左转并且实际上在神经网络开始学习之前你会看到网络的输出是一条灰色的区段就像这样的一条灰色区段覆盖着整个区域这些均称的灰色区域显示出神经网络已经随机初始化了并且初始化时我们并不知道汽车如何行驶或者说我们并不知道所选行驶方向只有在学习算法运行了足够长的时间之后才会有这条白色的区段出现在整条灰色区域之中显示出一个具体的行驶方向这就表示神经网络算法在这时候已经选出了一个明确的行驶方向不像刚开始的时候输出一段模糊的浅灰色区域而是输出一条白亮的区段表示已经选出了明确的行驶方向 ALVINN (Autonomous Land Vehicle In a Neural Network) 是一个基于神经网络的智能系统通过观察人类的驾驶来学习驾驶 ALVINN能够控制NavLab载具—— 一辆改装版军用悍马这辆悍马装载了传感器计算机和驱动器用来进行自动驾驶的导航试验实现ALVINN功能的第一步是对它进行训练也就是训练一个人驾驶汽车然后让ALVINN观看 ALVINN每两秒将前方的路况图生成一张数字化图片并且记录驾驶者的驾驶方向得到的训练集图片被压缩为30x32像素并且作为输入提供给ALVINN的三层神经网络通过使用反向传播学习算法 ALVINN会训练得到一个与人类驾驶员操纵方向基本相近的结果一开始我们的网络选择出的方向是随机的大约经过两分钟的训练后我们的神经网络便能够准确地模拟人类驾驶者的驾驶方向对其他道路类型也重复进行这个训练过程当网络被训练完成后操作者就可按下运行按钮车辆便开始行驶每秒钟ALVINN生成 12次数字化图片并且将图像传送给神经网络进行训练多个神经网络同时工作每一个网络都生成一个行驶方向以及一个预测自信度的参数预测自信度最高的那个神经网络得到的行驶方向比如这里在这条单行道上训练出的网络将被最终用于控制车辆方向车辆前方突然出现了一个交叉十字路口当车辆到达这个十字路口时我们单行道网络对应的自信度骤减当它穿过这个十字路口时前方的双车道将进入其视线双车道网络的自信度便开始上升当它的自信度上升时双车道的网络将被选择来控制行驶方向车辆将被安全地引导进入双车道路这就是基于神经网络的自动驾驶技术当然我们还有很多更加先进的试验来实现自动驾驶技术在美国欧洲等一些国家和地区他们提供了一些比这个方法更加稳定的驾驶控制技术但我认为使用这样一个简单的基于反向传播的神经网络训练出如此强大的自动驾驶汽车的确是一次令人惊讶的成就

秒客网