论文笔记——MobileNets(Efficient Convolutional Neural Networks for Mobile Vision Applications)

(1) 直接对channel进行裁剪，这种随机砍掉一些channel，也太暴力了吧，砍多了效果肯定不好，想想都知道。

(2) 减少输入图像的分辨率，也就是减小输入的尺寸大小。

论文笔记——MobileNets(Efficient Convolutional Neural Networks for Mobile Vision Applications)

M表示输入的channel, N表示输出的channel，Dk表示kernel size.
我们可以看到输出的每一个channel，都跟所有的输入channel有关，也就是说，对于输出的一个channel，都是M个kernel与M个channel卷积以后的求和结果。
差别就在这里！在depthwise separable中，每一个输出的channel，只和一个输入的channel有关。

论文笔记——MobileNets(Efficient Convolutional Neural Networks for Mobile Vision Applications)

输入M个channel，那么输出也是M个channel，每一个channel都是由一个kernel在一个channel卷积以后得到的结果，不在是和所有的输入相关了。这也就是为什么名字叫做depthwise separable（深度级的分离，channel的分离）。
但是我们发现输出只有M个channel,而我们想要输出N个channel，这个时候我们应该想到1*1的convolution，这个时候的卷积就是full convolution。这个时候输出的每一个channel都和输入有关了，相当于输入的加权求和。所以1x1的卷积有联合(combine)的作用。

论文笔记——MobileNets(Efficient Convolutional Neural Networks for Mobile Vision Applications)

Dk表示kernel size， M表示输入的channel，也就是feature map的个数，N表示输出的channel。Df表示feature map的大小，也就是width和height, 上面这个式子再一次验证了我们上面说的，输出的每一个channel都和输入的所有channel有关。

论文笔记——MobileNets(Efficient Convolutional Neural Networks for Mobile Vision Applications)

论文笔记——MobileNets(Efficient Convolutional Neural Networks for Mobile Vision Applications)

论文笔记——MobileNets(Efficient Convolutional Neural Networks for Mobile Vision Applications)

上面公式可以看到直接对输入的M个channel进行的压缩(随机采样)

论文笔记——MobileNets(Efficient Convolutional Neural Networks for Mobile Vision Applications)

上面公式可以看到对不仅对输出的channel进行了采样，对输入图像的分辨率也进行了减小。

论文笔记——MobileNets(Efficient Convolutional Neural Networks for Mobile Vision Applications)

论文笔记——MobileNets(Efficient Convolutional Neural Networks for Mobile Vision Applications)

Tensorflow的实现： https://github.com/tensorflow/models/blob/master/slim/nets/mobilenet_v1.md
Caffe实现(trick)： https://github.com/shicai/MobileNet-Caffe
(通过caffe 的group参数来实现depthwise的操作的，由于实现的问题和cuda/cudnn对其支持得不好，训练起来十分慢。前向预测时在CPU上的耗时大概是googlenet的70%。这个数据参考一篇博文的，未实践过。)
Pytorch实现：https://github.com/marvis/pytorch-mobilenet

秒客网