论文阅读笔记四十九:ScratchDet: Training Single-Shot Object Detectors from Scratch(CVPR2019)

时间:2023-12-16 21:37:08

论文阅读笔记四十九:ScratchDet: Training Single-Shot Object Detectors from Scratch(CVPR2019)

论文原址:https://arxiv.org/abs/1810.08425

github:https://github.com/KimSoybean/ScratchDet

摘要

当前较为流行的检测算法是在经典的大规模分类的数据集上进行微调,但这样做会存在两个问题:

(1)分类任务与检测任务二者之间对位置的敏感性差异较大,进而造成了优化目标之间存在偏差。

(2)目标检测的结构受制于分类模型,进而造成对模型修改上的不便。

为了应对上面的这两个问题,从头重新训练检测器是一种可行的方法。但这种方法又存在的一个问题是,相比预训练过的模型,此方法的性能要差一些,尤其是在训练时的收敛问题上。本文,采用从头重新训练网络的方法,分析了优化的方法发现,从头开始训练检测器所忽略的一个点时BatchNorm。利用BatchNorm的稳定及可预测的梯度,检测器可以从顶部开始进行稳定训练,同时在不同网络结构的基础上取得较好的性能。本文提出了Root-ResNet backbone网络,充分利用原始图片的信息。

介绍

本文研究了针对基于随机初始化网络的优化方法因素,发现BatchNorm重新调整了优化问题的参数分布,使其外形更加平滑同时减少了internal covariate shift。基于此,本文认为从头训练检测网络收敛性较差的主要原因是缺少BN操作。因此,本文在backbone及检测子网络的头部都添加了BN层,发现添加BN后,从头开始训练的检测网络要比预训练的效果要好,进而可以不依赖于预训练网络对网络结构进行调整。实验发现,第一层卷积的下采样stride也对目标检测的效果产生重要的影响。基于这一点,本文通过引入一个root block来设计检测器的结构。root block可以获得detector feature map中丰富的信息,提高了对小目标的准确率。

本文主要贡献:

(1)本文设计了基于scratch训练的single-shot目标检测网络-ScratchDet,该网络结合了BN操作有利于网络的收敛,此方法适用于任意类型的网络结构。

(2)引入了新的backbone Root-ResNet,提高了小目标的检测效果。

(3)ScratchDet的检测表现效果较为强劲。

ScratchDet

1.BatchNorm for Train-from-Scratch

本文在SSD上添加了BatchNorm,原生SSD中是不存在BN层的。在backbone的每一层中添加了BN层,然后,从头开始训练。发现提升了5.2%的mAP,同时使优化曲线更加的平滑,进而可以使用更大的学习率进行优化。

在检测网络的head子网络添加BatchNorm,本文经过实验发现,在原生SSD上基于大学习率进行训练,容易造成梯度爆炸。在网络的检测头的子网络添加BatchNorm可以使训练的loss的外形更加平滑。使mAP从67.6%提升至71.0%.

在整个网络中添加BN层,其实验结果比对如下。

论文阅读笔记四十九:ScratchDet: Training Single-Shot Object Detectors from Scratch(CVPR2019)

论文阅读笔记四十九:ScratchDet: Training Single-Shot Object Detectors from Scratch(CVPR2019)

2.BackBone Network

backbone为ResNet及VGG的性能:本文研究了backbone第一层卷积的downsampling操作的影响,实验发现,第一层的downsampling操作对小目标的检测造成了不利的影响。基于上述分析,本文重新设计了目标检测的backbone,为了克服Resnet中的不足并保留其分类的优秀性能。本文设计了Root-ResNet。结构如下:

论文阅读笔记四十九:ScratchDet: Training Single-Shot Object Detectors from Scratch(CVPR2019)

论文阅读笔记四十九:ScratchDet: Training Single-Shot Object Detectors from Scratch(CVPR2019)

本文移除了第一层卷积的下采样操作并将7x7的卷积核用几个3x3的卷积核进行替换。随着从Image中获得更丰富的输入信息,网络可以挖掘图像中的局部信息,进而可以检测小目标物体。此外,将SSD后用于获得不同尺寸大小信息的四个卷积blocks替换为四个残差块。每个残差块包含两个分支,一个为1x1 stride为2的卷积层,另两个为stride分别为2和1的3x3的卷积核.每个卷积核的输出通道数设置为128.

实验

论文阅读笔记四十九:ScratchDet: Training Single-Shot Object Detectors from Scratch(CVPR2019)

论文阅读笔记四十九:ScratchDet: Training Single-Shot Object Detectors from Scratch(CVPR2019)

论文阅读笔记四十九:ScratchDet: Training Single-Shot Object Detectors from Scratch(CVPR2019)

论文阅读笔记四十九:ScratchDet: Training Single-Shot Object Detectors from Scratch(CVPR2019)

Reference

[1] S. Bell, C. Lawrence Zitnick, K. Bala, and R. Girshick.Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks. In CVPR, 2016.

      [2] K. Chen, J. Pang, J. Wang, Y. Xiong, X. Li, S. Sun,W. Feng, Z. Liu, J. Shi, W. Ouyang, C. C. Loy, and D. Lin.mmdetection. https://github.com/open-mmlab/mmdetection, 2018.
      [3] B. Cheng, Y. Wei, H. Shi, R. Feris, J. Xiong, and T. Huang.Revisiting rcnn: On awakening the classification power of faster rcnn. In ECCV, 2018.
      [4] J. Dai, Y. Li, K. He, and J. Sun. R-fcn: Object detection via region-based fully convolutional networks. In NIPS, 2016.