Mars论文笔记

时间:2024-04-11 07:00:14

3 MARS Dataset

3.1 Dataset Description

MARS(运动分析和再识别集)数据集用于基于视频的人的再识别。它是Market-1501数据集的扩展[43]。在采集过程中,我们在清华大学校园内放置了6台近同步相机。有五台1080×1920高清摄像机和一台640×480 SD摄像机。MARS由1261个不同的行人组成,他们被至少2个摄像头捕获。

在tracklet generation步骤中,我们首先使用DPM检测器[11]来检测行人。然后,使用GMMCP跟踪器[7]对连续帧中的重叠检测结果进行分组,并填充丢失的检测结果。总共生成20715个图像序列输出。

7. Dehghan, A., Assari, S.M., Shah, M.: Gmmcp tracker: Globally optimal generalized maximum multi clique problem for multiple object tracking. In: CVPR (2015)

11.Felzenszwalb, P.F., Girshick, R.B., McAllester, D., Ramanan, D.: Object detection with discriminatively trained part-based models. Pattern Anal. Mach. Intell. IEEE Trans. 32(9), 1627–1645 (2010)

其中,3248条是由于错误检测或跟踪而产生的干扰轨迹(序列),接近实际应用。总的来说,Mars具有以下特征。

首先,与ILIDS-VIDand和PRID-2011相比,mars的规模要大得多:身份数和轨迹总数分别是ILIDS-VIDandPRID-2011的4倍和30倍。

其次,the tracklets in MARS 是由DPM探测器和GMMCP跟踪器自动生成的,这与现有的数据集通过人工检测不同。检测/跟踪错误使MARS比以前的数据集更真实。此外,在Mars中,为了产生 “smooth” tracklets,我们进一步对bbox坐标应用平均滤波(average filtering)以减少定位误差。正如我们将在第5.3节中展示的, tracklet smoothing 改善了 the performance of motion features。

 

Mars论文笔记转存失败重新上传取消Mars论文笔记

(a) :1-6个摄像头捕获的身份数。大多数id由2-4个摄像头捕获

Mars论文笔记转存失败重新上传取消Mars论文笔记

(b) :每个相机中的轨迹数。而camera-2生成的tracklet最多。

Mars论文笔记转存失败重新上传取消Mars论文笔记

c) :轨迹中帧数的分布。大量的tracklet包含25-50帧

Mars论文笔记转存失败重新上传取消Mars论文笔记

(d) :行人轨迹数量分布,大多数id有5-20个tracklet。

 

第三,在Mars中,每个身份平均有13.2个轨迹。对于每个查询,平均存在3.7个跨摄相机待查询真值;每个查询有4.2个图像序列,这些图像序列是在同一个摄像机下捕获的,可以用作查询的辅助信息。因此,MARS可用于多查询和重排序的算法研究[45]( 可以充分利用多个查询图像来获得关于感兴趣的行人的更多区分性信息)

45. Zheng, L., Wang, S., Tian, L., He, F., Liu, Z., Tian, Q.: Query-adaptive late fusion for image search and person re-identification. In: CVPR (2015)

3.2 Evaluation Protocol

在MARS数据集中,我们与以前的数据集[12,23,43]一样,坚持跨摄像机搜索模式,即 query 和 gallery 由不同的摄像机捕获。每个身份在每个摄像头下都有一个 probe 。由于每个身份在一个摄像机下可能有多个轨迹,因此从中随机选择具有代表性的probe,最终得到2009个probe。Mars数据集被分为训练集和测试集,分别包含631和630个身份,并且这种划分是固定的。由于数据集很大,因此我们固定训练集和测试集划分,而不是重复10或20次随机划分[12,23]。使用CMC和mAP作为评估度量[43]。The Average Precision(AP)是根据一个查询的排名结果计算出来的,the mean Average Precision (mAP)是根据所有查询中计算出来的。CMC聚焦检索精度,而mAP考虑同时精度和召回率。

图没看明白

4 Important Features

4.1 Motion Features

       HOG3D[18]提取特征在动作识别方面具有竞争性[22]。在特征提取中,给定一个轨迹,我们首先使用文献[36]中提出的流能公式(FEP)来识别步行周期。对于一个步长周期内的bboxes,我们在8×8×6(或16×16×6) 的space-time patches中统一提取HOG3D特征,相邻 patches之间有50%的重叠。 每个 space-time patch 的特征维数为96。由于不同时间段的视频具有不同数量的 the dense space-time tubes,因此我们将局部特征编码为一个 Bag-of-Words (BoW)模型。具体来说,2000码的码本是在训练集上用k-means训练的。然后,将每个96维描述符量化为码本中定义的可视字。因此我们在任意长度视频上得到了2000维BoW向量。我们没有将图像分割成水平条纹[43],因为这种策略引入了更大的特征维数,并且在我们的初步实验中没有提高re-id的精度。

The Gait Energy Image (GEI) [13] 在步态识别中有着广泛的应用。在GEI提取中,我们还使用FEP首次发现步行周期。然后,对于一个周期内的bbox,我们使用Luo等人发布的代码[26]将每个bbox分割为前景(行人)和背景。将一个步行周期内产生的二值图像进行平均以得到 轨迹GEI(the GEI of the tracklet)。在我们的实验中,GEI的大小是80×30,它被重塑成一个列作为最终向量。

在特征提取之后,我们使用Kissme[19]和XQDA[24]等多种度量学习方案,在训练集上学习度量。

4.2 CNN Features

卷积神经网络(CNN)在许多视觉任务中都达到了最先进的精度。在行人重识别中,由于每个身份缺乏训练数据,当前的CNN方法[1,8,23,40]将正、负图像对(或三胞胎)作为网络输入。在本文中,我们运用ID-discriminative Embedding (IDE)[46]使用Ca ffeenet[20]在分类模式下训练re-ID模型。更复杂的网络[14,34]可能产生更高的re id精度。

在训练过程中,图像的大小被调整为227×227像素,连同它们的id(标签)分批输入CNN。通过与Caffenet[20]结构相同的五个卷积层,我们定义了两个完全连接层,每个层有1024个blob。第八层的blobs数量等于训练标识数量631。Mars上的训练框总数为518k。

在测试中,由于re-id训练和测试身份不重叠,因此在度量学习步骤之前,我们使用CNN模型提取probe和gallery特征。具体来说,我们提取一个 输入序列( input tracklet)中所有bbox的FC7特征。然后,使用最大/平均池化将任意长度的序列都转化生成1024维向量(两种池方法之间的比较在第5节中)。最后,在基于图像的re-id中使用度量学习。在第5.4节中,我们将证明通过行人分类学习到的IDE描述符( IDE descrptors )可以有效地用于re-id中。

当将在MARS上训练的CNN模型传输到其他视频re-id数据集时,我们将在目标数据集上调整MARS-learn的CNN模型。在实验中,我们发现卷积层中的 fixing parameters 通常会导致精度降低,因此在实践中,包括卷积层和完全连接层在内的所有7个CNN层都是经过精确调整的。最后一个完全连接层(FC8)是从头开始训练的。

5 Experiments

5.1 Datasets

5.2 Why Do We Prefer Video-Based Re-Identification?

5.3 Evaluation of Motion Features

5.4 Evaluation of the CNN Feature

5.5 Comparison with State-of-the-arts

6 Conclusions

本文提倡在行人重识别中使用视频轨迹(video tracklets )。尝试构建一个真实的视频re-id数据集,命名为“MARS”。这个数据集比以前的视频重id数据集大四倍,并且是用自动检测器和跟踪器收集的。此外,MARS数据集还具有多查询、多真值以及由错误检测和跟踪产生的3000多条干扰轨迹等特点。这些特性使MARS成为实用re-id算法的理想测试平台。

我们利用两个运动特征以及卷积神经网络来学习人子空间中的判别嵌入(a discriminative embedding in the person subspace)。我们的实验表明,在复杂背景、遮挡和各种姿势的真实环境下,以前在小数据集上被证明是成功的运动特征的效果显得并不是很好。相反,当视频数据集中有大量训练数据时,预训练的CNN特征大大优于运动特征和一些最先进的图像描述符,并且对其他视频数据集具有良好的泛化能力。