前言

关于卷积神经网络CNN，网络和文献中有非常多的资料，其中经典的几个网络是非常有必要好好研究一下，我这里简单整理一下，希望对初学者有所帮助，如有不正确的理解，望加指正。
1. Lenet，1986年，论文地址：http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf
2. Alexnet，2012年；论文地址：http://www.cs.toronto.edu/~fritz/absps/imagenet.pdf
3. VGG，2014年；论文地址：https://arxiv.org/pdf/1409.1556.pdf
4. GoogleNet，2014年；论文地址：https://arxiv.org/pdf/1409.4842.pdf
5. ResNet，2015年；论文地址：https://arxiv.org/pdf/1512.03385.pdf

一. 卷积神经网络的发展

卷积神经网络（CNN），属于人工神经网络的一种，它的权值共享的网络结构显著降低了模型的复杂度，减少了权值的数量，也是目前语音分析和图像识别领域研究的热点。

图一卷积神经网络的发展

卷积神经网络的发展是从神经认知机模型发展来的，后来LeCun提出了LeNet，加上ReLu和Dropout的提出，以及GPU和大数据带来的机遇，在2012年卷积神经网络迎来了历史性的突破—Alexnet，摘下了视觉领域竞赛ILSVRC 2012的桂冠，在百万量级的ImageNet数据集合上，效果大幅度超过传统的方法，从传统的70%多提升到80%多，刷新了图像分类的记录。到后来的VGG、GoogleNet、Resnet、RCNN三件套等，不仅在比赛中取得好的成绩，在工业上也开始应用起来。

二、LeNet网络

图二 LeNet网络结构图

LeNet结构分析如下：

输入层：输入图像尺寸为32 X 32
输入图片：32*32;
卷积核大小：5*5；步长为1
输出featuremap大小：28*28 （(32-5）/1+1）=28;
神经元数量：28*28*6;
可训练参数：（5*5+1) * 6（每个滤波器5*5=25个unit参数和一个bias参数，一共6个滤波器）
连接数：（5*5+1）*6*28*28=122304;
有122304个连接，但是我们只需要学习(6*（5*5+1）)=156个参数，主要是通过权值共享实现的。
S2层-池化层，降低网络训练参数以及模型的过拟合程度，主要有最大池化、平均池化
输入：28*28;
采样区域：2*2 ；步长为2
采样方式：4个输入相加，乘以一个可训练参数，再加上一个可训练偏置。结果通过sigmoid
采样种类：6
输出featureMap大小：14*14
神经元数量：14*14*6
可训练参数：2*6（和的权+偏置）
连接数：（2*2+1）*6*14*14
S2中每个特征图的大小是C1中特征图大小的1/4。
C3层-卷积层
输入：S2中所有6个或者几个特征map组合
卷积核大小：5*5；步长为1
卷积核种类：16
输出featureMap大小：10*10 ；((14-5)/1+1)=10
C3中的每个特征map是连接到S2中的所有6个或者几个特征map的，表示本层的特征map是上一层提取到的特征map的不同组合
存在的一个方式是：C3的前6个特征图以S2中3个相邻的特征图子集为输入。接下来6个特征图以S2中4个相邻特征图子集为输入。然后的3个以不相邻的4个特征图子集为输入。最后一个将S2中所有特征图为输入。
则：可训练参数：6*(3*5*5+1)+6*(4*5*5+1)+3*(4*5*5+1)+1*(6*5*5+1)=1516
连接数：10*10*1516=151600
详细说明：第一次池化之后是第二次卷积，第二次卷积的输出是C3，16个10x10的特征图，卷积核大小是 5*5. 我们知道S2 有6个 14*14 的特征图，怎么从6 个特征图得到 16个特征图了？这里是通过对S2 的特征图特殊组合计算得到的16个特征图。具体如下：

C3的前6个feature map（对应上图第一个红框的6列）与S2层相连的3个feature map相连接（上图第一个红框），后面6个feature map与S2层相连的4个feature map相连接（上图第二个红框），后面3个feature map与S2层部分不相连的4个feature map相连接，最后一个与S2层的所有feature map相连。卷积核大小依然为5*5，所以总共有6*(3*5*5+1)+6*(4*5*5+1)+3*(4*5*5+1)+1*(6*5*5+1)=1516个参数。而图像大小为10*10，所以共有151600个连接。
C3与S2中前3个图相连的卷积结构如下图所示：

上图对应的参数为 3*5*5+1，一共进行6次卷积得到6个特征图，所以有6*（3*5*5+1）参数。 为什么采用上述这样的组合了？论文中说有两个原因：1）减少参数，2）这种不对称的组合连接的方式有利于提取多种组合特征。
S4层-池化层（下采样层）
输入：10*10
采样区域：2*2 ；步长为2
采样方式：4个输入相加，乘以一个可训练参数，再加上一个可训练偏置。结果通过sigmoid
采样种类：16
输出featureMap大小：5*5 (（10-2)/2+1)
神经元数量：5*5*16=400
可训练参数：2*16=32（和的权+偏置）
连接数：16*（2*2+1）*5*5=2000
S4中每个特征图的大小是C3中特征图大小的1/4
详细说明：S4是pooling层，窗口大小仍然是2*2，共计16个feature map，C3层的16个10x10的图分别进行以2x2为单位的池化得到16个5x5的特征图。这一层有2x16共32个训练参数，5x5x5x16=2000个连接。连接的方式与S2层类似。
C5层-卷积层
输入：S4层的全部16个单元特征map（与s4全相连）
卷积核大小：5*5 ；步长为1
卷积核种类：120
输出featureMap大小：1*1 (（5-5)/1+1）
可训练参数/连接：120*（16*5*5+1）=48120
详细说明：C5层是一个卷积层。由于S4层的16个图的大小为5x5，与卷积核的大小相同，所以卷积后形成的图的大小为1x1。这里形成120个卷积结果。每个都与上一层的16个图相连。所以共有(5x5x16+1)x120 = 48120个参数，同样有48120个连接。C5层的网络结构如下：
F6层-全连接层
输入：c5 120维向量
计算方式：计算输入向量和权重向量之间的点积，再加上一个偏置，结果通过sigmoid函数输出。产生单元i的一个状态。
可训练参数:84*(120+1)=10164
详细说明：6层是全连接层。F6层有84个节点，对应于一个7x12的比特图，-1表示白色，1表示黑色，这样每个符号的比特图的黑白色就对应于一个编码。该层的训练参数和连接数是(120 + 1)x84=10164。ASCII编码图如下：
Output层-全连接层
Output层也是全连接层，共有10个节点，分别代表数字0到9，且如果节点i的值为0，则网络识别的结果是数字i。采用的是径向基函数（RBF）的网络连接方式。假设x是上一层的输入，y是RBF的输出，则RBF输出的计算方式是：
$y_{i} = \sum_{j} (x_{j} - w_{i j})^{2}$
上式w_ij 的值由i的比特图编码确定，i从0到9，j取值从0到7*12-1。RBF输出的值越接近于0，则越接近于i，即越接近于i的ASCII编码图，表示当前网络输入的识别结果是字符i。该层有84x10=840个参数和连接。

二. AlexNet

AlexNet 在2012 年的ImageNet 图像分类竞赛中，Top-5 错误率为15.3%。AlexNet 的结构下图所示。图中明确显示了两个GPU 之间的职责划分：一个GPU 运行图中顶部的层次部分，另一个GPU 运行图中底部的层次部分。GPU 之间仅在某些层互相通信。

AlexNet结构分析如下：
AlexNet 由5 个卷积层、5 个池化层、3 个全连接层，大约5000 万个可调参数组成。最后一个全连接层的输出被送到一个1000 维的softmax 层，产生一个覆盖1000 类标记的分布。
AlexNet 之所以能够成功，让深度学习卷积的方法重回到人们视野，原因在于使用了如下方法。
● 防止过拟合：Dropout、数据增强（data augmentation）。
● 非线性**函数：ReLU。
● 大数据训练：120 万（参万级）ImageNet 图像数据。
● GPU 实现、LRN（local responce normalization）规范化层的使用。

秒客网

卷积神经网络经典网络（LeNet、AlexNet、VGG、ResNet）

前言

一. 卷积神经网络的发展

二、LeNet网络

二. AlexNet

2.1.双向RNN

2.2. 深层双向RNN

五. Pyramidal RNN

六.RNN的训练-BPTT

七.RNN与CNN的结合应用：看图说话

八.RNN项目练手

相关文章