详解ReID的各部分组成及Trick——特征提取网络（Backbone）

时间：2024-05-21 10:14:23

1、ResNet

在FastReID中常用的ResNet结构有ResNet50和ResNet101。调用了在ImageNet上的预训练模型来作为Backbone，这样可以提高模型的性能。关于ResNet的设计，基本上接触过深度学习的都很熟悉了，这里为了方便对比主要列出其残差块的设计。
详解ReID的各部分组成及Trick——特征提取网络（Backbone）

2、ResNeXt

ResNeXt是在ResNet上做出的一个改进，结合了Inception的思想，通过一系列相同拓扑结构的卷积操作来获取特征，最后concat在一起。
详解ReID的各部分组成及Trick——特征提取网络（Backbone）

3、ResNeSt

ResNeSt是2020年的一篇工作《ResNeSt：Split-Attention Networks》
详解ReID的各部分组成及Trick——特征提取网络（Backbone）
从左到右分别是SENet, SKNet, ResNeSt的网络结构，Split-Attention其本质可理解为切片的注意力监督机制。在ResNeST中的block设计是结合了ResNeXt和SeNet的设计做出的。

4、IBN

由于训练集和测试集往往是不同场景下的数据，IBN block当初提出是为了提高针对不同场景下的模型泛化性能，提升跨域（cross domain）能力，在ReID任务中，IBN表现优异。
详解ReID的各部分组成及Trick——特征提取网络（Backbone）

常用结构如上图所示，其中IN和BN操作不同之处在于BN考虑了整个batch中相关通道的所有特征图进行归一化，而IN之考虑到自身通道的特征图做归一化（见下图），这样做的好处实际上可以理解，在保持了通道的响应的情况下，让特征不会太受到场景迁移的影响，如光照等。而在IBN的block设计中，基于原本的ResNet的block增加了IN的操作，目的性就是去增加这种跨域泛化的能力，而这种能力在ReID任务中实际上非常重要。
详解ReID的各部分组成及Trick——特征提取网络（Backbone）

5、Non-local

       Non-local是一种全局注意力机制，Local这个词主要是针对感受野(receptive field)来说的。以卷积操作为例，它的感受野大小就是卷积核大小，而我们一般都选用33，55之类的卷积核，它们只考虑局部区域，因此都是local的运算。相反的，Non-local指的就是感受野可以很大，而不是一个局部领域。
       了解了Non-local的定义之后，我们需要知道Non-local是如何操作的，在原文中作者设计了一个Non-local block，通过一系列1x1的卷积和特征图重构点乘来获得全局的注意力机制，这样就可以在原图增加一个有关于全图的注意力机制。
详解ReID的各部分组成及Trick——特征提取网络（Backbone）
       FastReID中提供了AGW的baseline中就应用了这个操作，在ResNet中加入了Non-local的block，因为ReID任务的输入是行人的全图，这种操作可以提高对整体行人信息的关注度。
详解ReID的各部分组成及Trick——特征提取网络（Backbone）
对这个方法我也做了一个实验，发现它引入的内存占用量挺大的，对显存需求高，其实大多数注意力机制都存在这个问题。

相关文章

