Tracking The Untrackable: Learning to Track Multiple Cues with Long-Term Dependencies

跟踪不可跟踪：学习跟踪具有长期依赖性的多个线索

摘要：

多目标跟踪（MTT）问题的大多数现有解决方案并未在长时间内以连贯的端到端方式组合线索。然而，我们提出了一种在线方法，该方法对多个线索的长期时间依赖性进行编码。跟踪方法的一个关键挑战是准确跟踪被遮挡的目标或与周围对象具有相似外观属性的目标。为了应对这一挑战，我们提出了一种递归神经网络（RNN）结构，该结构共同推导了时间窗口上的多个线索。我们能够纠正许多数据关联错误并从封闭状态恢复观察。我们通过使用它们的外观，运动甚至交互来跟踪多个目标，从而证明了我们的数据驱动方法的稳健性。我们的方法优于以前在多个公开可用数据集上的工作，包括具有挑战性的MOT基准。

1. Introduction

基于神经网络的体系结构已经成为解决感知任务的重要工具，并且已经显示出在分类图像时接近人类级别的准确性[18,19]。然而，多目标跟踪（MTT）问题的现状仍远未与人类绩效相匹配[61,75]。这主要是因为神经网络难以使用多模态线索（例如，外观，运动和交互）捕获时间和空间中的目标的相互关系。在这项工作中，我们通过联合学习一种表示来解决MTT问题，该表示在一段时间内以端到端的方式考虑了几个线索（见图1）。

MTT的目标是在目标移动时推断目标的轨迹。它涵盖了广泛的应用，如运动分析[43,41,76]，生物学（如鸟[44]，蚂蚁[28]，鱼[66,67,15]，细胞[45,39] ），机器人导航[11,12]和自动驾驶车辆[13,57]。我们遵循“检测跟踪”范例，从而在视频帧之间连接检测输出。这通常被表述为关于图[55,56]的优化问题。每个检测由节点表示，并且边缘编码相似性得分。在过去的几十年中，研究人员在提出解决基于图形的配方的最佳分配的技术方面取得了重大进展[86,1,34,64]。但是，它们的MTT性能受到其表示的特定设计选择和相应的相似性功能的限制。

在拥挤的环境中，遮挡，噪声检测（例如，错误警报，缺失检测，非准确边界）和外观可变性是非常常见的。在传统的MTT方法中，表示和相似度函数是手工制作的，试图捕获相邻时间帧的相似外观和运动[34,64,75,77]。相比之下，我们提出了一种方法来编码跨多个线索的长期时间依赖性，而无需手动指定参数或权重。我们的框架基于递归神经网络（RNN）的结构，这也在其他应用中显示出优势[26]。本文的其余部分如下。在第3节中，我们提供了每个RNN输入的详细信息，并学习了可用于以端到端方式计算相似性得分的表示。我们的外观模型是在卷积神经网络（CNN）上构建的RNN。目的是分类检测是否与不同时间帧的目标实例相似。我们的运动和交互模型利用两个独立的长短期记忆（LSTM）网络，这些网络跟踪目标的运动和相互作用，适用于长期存在的长期遮挡。然后，我们将这些网络组合成一个RNN结构，以学习在不同时间段内联合推理。我们的方法在线运行而无需查看未来的帧。在第4节中，我们使用多个基准测试来详细评估我们的框架，例如MOT挑战[37,46]和斯坦福无人机数据集[59]。

图1：我们提出一种基于RNN结构的方法（每个RNN由梯形描绘），该方法学习编码跨多个线索（外观，运动和交互）的长期时间依赖性。我们学习的表示用于计算“Tracking-by-detection”算法的相似性得分。

2. Related Work

近年来，跟踪已成功扩展到具有多个目标的情景[52,38,24,75]。与已经构建复杂外观模型以跟踪不同帧中的单个目标的单个目标跟踪方法相反，多个目标跟踪不主要关注外观模型。虽然外观是一个重要的提示，但在场景非常拥挤或目标可能共享相同外观的MTT场景中，仅依赖外观可能会出现问题。为此，一些工作一直在改进外观模型[17,7]，而其他工作则将目标之间的动力学和相互作用与目标外观相结合[59,3,55,77,9,62,56]。

2.1. Appearance Model

简单的外观模型广泛用于MTT。为简单起见，许多模型基于原始像素模板表示[77,4,74,55,54]，而颜色直方图是MTT方法中外观建模的最流行表示[9,38,68,35]。其他方法使用协方差矩阵表示，像素比较表示，类SIFT特征或姿势特征[25,83,29,22,50]。最近，深度神经网络架构已被用于建模外观[21,36,84]。在这些体系结构中，通过针对特定任务训练的卷积神经网络提取高级特征。我们模型的外观模块与[21]共享一些特征，但在两个关键方面有所不同：首先，我们通过学习两个目标之间的相似性度量来处理遮挡并解决重新识别任务。其次，网络架构是不同的，我们使用不同的损失函数，我们将在第3.2节中描述。

2.2. Motion Model

目标运动模型描述目标如何移动。运动提示是MTT的关键提示，因为知道未来帧中目标的可能位置将减少搜索空间，从而提高外观模型的准确性。MTT中使用的流行运动模型分为线性和非线性运动模型。线性运动模型遵循线性运动，跨帧速度恒定。这个简单的运动模型是MTT中最受欢迎的模型之一[7,47,63,82,53]。然而，在许多情况下，线性运动模型不能处理长期遮挡;为了解决这个问题，提出了非线性运动模型来产生更准确的预测[78,79,10]。我们提出了一个长期短期记忆（LSTM）模型，它学习预测类似的运动模式。它是一种完全数据驱动的方法，可以处理噪声检测。

2.3 Interaction Model

大多数跟踪技术假设每个目标都有一个独立的运动模型。在拥挤的场景中，这种简化可能是有问题的。交互模型捕捉场景中不同目标之间的相互作用和力量[20,23,73]。两种最流行的交互模型是[20]引入的social force models和crowd motion pattern model [23]。social force models也被称为group models。在这些模型中，每个目标对通过力（排斥或吸引力）与其他物体相互作用所引起的能量势反应，同时试图保持所需的速度和运动方向[59,3,55,77,9,62,56]。crowd motion pattern model是MTT中使用的另一种交互模型，受人群模拟文献的启发[85,65]。通常，这类模型通常用于过度拥挤的场景[90,48,32,33,60,58]。大多数这些方法的主要缺点是它们仅限于一些手工设计的力项，例如避碰或群体吸引力。最近，Alahi等人[3]提出使用长短期记忆网络来共同推理多个人（称为social LSTM）。他们提出了一种预测所有目标的长期轨迹的架构。我们使用类似的基于LSTM的架构。但是，我们的数据驱动交互模型经过train，可以解决重新识别任务，而不是长期预测。

最后，在使用多个cues进行推理时，之前的works将以手工制作的方式将它们组合在一起，而不会对长期依赖关系进行充分的建模。在第2.1,2.2和2.3节中讨论的先前方法都没有将相同的端到端架构中的外观，运动和交互提示结合起来。在这项工作中，我们提出了一种RNN结构来应对以前作品的这些局限性。我们学习了一种表示，它以数据驱动的方式自动编码多个线索的长期时间依赖性，即外观，运动和交互。

3. Multi-Target Tracking Framework

多目标跟踪（MTT）的任务包括在每个时间帧检测多个目标并在不同帧中匹配它们的身份，随着时间的推移产生一组目标轨迹。我们通过使用“tracking-by-detection”范例来解决这个问题。作为输入，检测结果由物体检测器产生。给定一个新帧，跟踪器计算已经跟踪的目标和新检测到的对象之间的相似性得分（更多细节见第3.1节）。这些相似性得分使用我们的框架计算（如图2所示）。它们用于在二分图中连接检测dj和目标ti，如图2的右侧所示。然后，匈牙利算法[49]用于找到最优分配。在这项工作中，我们提出了一种计算这些相似性得分的新方法。

图2.我们使用RNN结构（虚线矩形）来计算目标ti和检测dj之间的相似性得分。

分数用于构建目标和检测之间的二分图。RNN的结构由三个RNN组成-外观(A)，运动(M)和交互(I)-通过另一个RNN(称为目标RNN(O))组合。

3.1 Overall Architecture

我们已经将appearance cues, motion priors, and interactive forces确定为MTT问题的关键cues。如在引言中所讨论的，线性地组合这些线索不一定是计算相似性得分的最佳方式。我们建议使用RNN结构以原则方式组合这些线索。

在我们的框架中，我们用RNN表示每个cue。我们将从这些线索获得的RNN称为外观（A），运动（M）和交互（I）RNN。由这些RNN（φA，φM，φI）表示的特征通过另一个RNN组合，该RNN被称为target（O）RNN。有关这些RNN的体系结构和train过程的更多详细信息，请参见第3.2, 3.3, 3.4节和第3.5节。目标RNN输出特征向量φ(t,d)，其用于输出目标t和检测d之间的相似性。

通过使用RNN，更准确地说是LSTM网络，我们有能力在观察序列中编码长期依赖性。传统上，仅基于前一帧的观察，即成对相似性得分[86,1,34,64]，计算基于图的跟踪框架中的相似性得分。我们提出的相似性得分是通过推断观察序列来计算的。在第4.2节中，我们通过推理可变长度序列而不是成对相似性得分来证明我们的表示能力。在本节的其余部分中，我们将描述方法的每个组件。

3.2. Appearance

我们的外观模型的基本思想是我们可以基于纯粹的视觉线索计算目标和候选检测之间的相似性得分。更具体地说，我们可以将此问题视为重新识别的特定实例，其目标是获取成对的边界框并确定其内容是否对应于同一目标。因此，我们的外观模型应该在输入对之间具有微妙的相似性，并且对于遮挡和其他视觉干扰是稳健的。外观模型的输出特征向量由RNN（A）产生，RNN（A）又从外观特征提取器接收其输入（见图3）。

架构：我们的外观RNN（A）是一个LSTM，它接受外观特征提取器的外观特征，并为每个时间步长产生H维输出φi。外观特征是卷积神经网络（CNN）的最后隐藏层特征。

让是时间步长1,..,t的目标i的边界框和是我们希望与目标i进行比较的检测j。CNN接受每个边界框内的原始内容并将其传递通过其layers，直到它最终生成500维特征向量。我们还通过将其映射到H维向量的相同CNN传递（我们希望确定它是否对应于目标i的真实外观轨迹）。然后将LSTM的输出与此向量连接，结果如何被传递给另一个FC层将2H维向量带到k维特征向量（如图3所示）。我们使用Softmax分类器预先训练我们的外观模型，用于0/1分类问题，是否对应于真实的外观轨迹。当与其他cues结合使用时，我们使用大小为500的作为我们目标RNN（O）的输入的一部分。

请注意，我们在图3中使用16层VGGNet作为CNN。我们从该网络的预训练权重开始，移除最后一个FC层并添加大小为500的FC层，以便网络现在输出500维向量。然后我们训练这个CNN进行重新识别任务，详细信息可以在第4.3节中找到。

3.3. Motion

我们整体框架的第二个cue是每个目标的独立运动属性。它可以帮助跟踪被遮挡或丢失的目标。一个关键的挑战是处理嘈杂的检测。即使目标的实际运动是线性的，由于检测可能是有噪声的，the sequence of coordinates hence velocities可以是non-linear-尤其是如果我们在图像平面上进行推理的话。我们在嘈杂的2D速度轨迹（由我们的运动特征提取器提取）上训练长短期记忆（LSTM）网络，以便能够从数据中学习这种非线性（见图4）。

架构: 让目标i在第t个时间步的速度定义为：

其中是图像平面上每个目标的2D坐标（边界框的中心）。

我们的motion RNN(M)是一个LSTM，它接受特定目标在时间步长1,…,t的速度的输入作为运动特征，并产生H维输出φi。在时间步长t + 1（我们希望确定它是否与目标i的真实轨迹相对应）中传递detection j的速度矢量，我们还通过一个FC层将它映射到一个H维向量φj（这使得φj与φi的大小相同）。然后将LSTM输出与该向量连接，并将结果传递到另一个FC层，该层将2H维向量带到k维特征向量φM（如图4所示）。我们使用Softmax分类器对0/1分类问题预先训练我们的运动模型，速度是否对应于真实轨迹。当与其他cues结合使用时，我们使用大小为500的作为目标RNN（O）的输入的一部分。

3.4. Interaction Model

特定目标的运动不仅取决于其先前的运动，还取决于附近目标的行为。我们通过制定交互模型将这个cue纳入我们的整体框架。由于附近目标的数量可以变化，为了使用相同大小的输入，我们将每个目标的邻域建模为固定大小的占用网格。占用网格是从我们的交互特征提取器中提取的。对于每个目标，我们使用LSTM网络来模拟占用网格的序列。从我们的交互特征提取器中提取占用网格。对于每个目标，我们使用LSTM网络来模拟占用网格的序列（参见图6）。

架构：设代表时间步长1,…,t的目标i的2D占用网格。所有邻居的位置都汇集在这张map中。map的m,n元素简单地由下式给出：

其中V是逻辑析取，是指示函数，用于检查位于（x，y）的人是否在网格的（m，n）单元格中，并且Ni是与人i对应的邻居集合。map进一步表示为矢量（参见图6）。请注意，目标的所有2D位置都是它们在图像平面上的等效边界框中心。

我们的交互RNN（I）是LSTM，其接受以时间步长1,…,t（由交互特征提取器提取）的特定目标为中心的占用网格作为输入，并且为每个时间步长产生H维输出φi。在时间步长t + 1（我们希望确定它是否对应于目标i的真实轨迹）来通过检测j的占用网格（这使得φj与φi的尺寸相同），我们还通过将其映射到H维向量空间φj的FC层。然后将LSTM输出与该矢量连接，得到矢量φ，该矢量φ被传递到另一个FC层，该层将2H维矢量φ带到k维特征矢量φI的空间（如图5所示）。我们使用Softmax分类器预先训练我们的交互模型，用于0/1分类问题。与运动模型类似，当与其他cues组合时，我们使用大小为500的φI作为我们的目标RNN（O）的输入的一部分。

3.5. Target

我们在图2中所示的总体模型是通过将外观，运动和交互RNN通过另一个RNN（称为target RNN（O））组合而构建的。

train分两个阶段进行：

（i）首先，分别预先训练网络A，M和I（对应于外观，运动和交互RNN）以及CNN（外观特征提取器）。我们使用标准的Softmax分类器和交叉熵损失。每个RNN输出正类和负类的概率，其中正数表示新检测到的对象与目标的先前轨迹匹配（在外观，运动或交互属性的情况下，取决于负责的RNN），并且为负是其他情况。

（ii）其次，目标RNN与组件RNN A，M和I端到端地联合训练。网络的输出向量A，M和I被连接成单个特征向量并用作输入到目标RNN。我们的目标RNN具有跨时间学习所有线索的长期依赖性的能力。Target RNN（H维）的最后隐藏状态经过FC层，从而产生特征向量φ(t,d)，其对所有这些提示的所有长期依赖性进行编码。我们的目标RNN也经过训练以执行数据关联任务-使用Softmax分类器和交叉熵损失输出detection（d）是否对应于来自φ(t,d)的target(t)的得分。

在上述两个训练阶段，使用MOT15和MOT16训练数据训练网络，其中正例是真实的行人轨迹（包括外观，速度和占用地图，取决于RNN），负例是仅通过为最终帧选择另一个目标的属性，通过改变行人在轨迹的最后一帧中的外观或location。

4. Experimental Results

我们已经提出了我们的多线索表示学习框架来计算观察序列和新检测之间的相似性得分。我们使用我们的学习表示来解决多目标跟踪问题。我们首先介绍我们的框架在MOT挑战中的整体表现[37]，然后对我们的代表性提出更多的见解和分析。

4.1. Multi-Target Tracking

回想一下，我们在MDP框架中使用我们学到的表示[75]。我们为每个目标都有一个目标LSTM，MDP框架使用我们学习的表示计算的相似性来跟踪目标。

指标。我们报告了与MOT2D基准挑战[37]中建议的相同的指标：跟踪精度（MOTA），多目标跟踪精度（MOTP），大多数跟踪目标（MT），大多数丢失目标（ML），误报（FP）），假阴性（FN），ID开关（IDS），最后是在一秒钟内处理的帧数（Hz），表示跟踪方法的速度。

实施细节。在所有实验中，对于所有RNN，参数H，k和序列长度的值分别为128,100和6。此外，在第3.4节中，图像采用15 * 15网格均匀采样，其中以特定人为中心的7 * 7子网格用作其占用网格。通过交叉验证选择网络超参数，并使用Adam更新训练我们的框架。训练RNN从头开始，小批量大小为64，学习率为0.002，每10个时期依次减少10倍（50个时期）。请注意，这对于训练所有RNN是相同的。而且，我们在MDP框架中使用我们的方法[75]。对于每个目标，MDP有两个过程。首先，它使用基于光流的单个物体跟踪器独立地跟踪目标。然后，当目标被遮挡时，单个对象跟踪器停止跟踪和二分图构造类似于图2。匈牙利算法用于恢复被遮挡的目标。请注意，MDP还建议在手工制作的表示法下学习相似度得分。我们用目标RNN 的输出替换它们的表示，以证明我们的学习方法的强度。

MOT Challenge Benchmark。我们在2DMOT 2015基准测试[37]和表5和6中的MOT16 [46]中报告了我们方法的定量结果。这些挑战分别为11和14个序列共享训练和测试集。我们使用他们公开分享的嘈杂检测。我们的方法在多个指标（如MOTA，MT和ML）上优于以前的方法。我们的MOTA甚至优于离线方法（2015年挑战），这些方法可以访问整套未来检测，以推断数据关联步骤。使用多个提示的长期依赖性使我们的方法在遮挡或漂移后恢复到正确的目标;因此我们有更高的MT和更低的ML，但我们的IDS更高。实际上，当目标被遮挡时，我们的方法可能错误地将它们分配给其他检测。但是当目标出现时，我们的方法会将它们与正确的检测重新匹配。这样的过程导致大量的开关。尽管如此，MT指标仍然很高。

与先前发布的MDP方法相比，我们学习的表示的影响变得明显。通过仅切换表示并保持[75]中提出的相同数据关联方法，我们在MOTA中获得20％的相对增强。斯坦福数据集[59]进一步强调了我们的代表性的好处。

Stanford Drone Dataset。正如我们之前提到的，与其他多目标跟踪方法相比，我们模型的主要优势之一是相似性得分，它是跨时间的多个线索的函数，并试图在每次使用正确的线索。通常，一些线索应该投票给相似性得分，因为其他线索不具有足够的判别力或非常嘈杂。为了测试我们的方法的力量，我们还通过测试我们的多目标跟踪实验进行实验，这些实验与MOT挑战[37]，即斯坦福无人机数据集[59]非常不同。所有目标都很小，因此外观模型可能有问题（如图9所示）。在表1中，我们将我们的方法与先前报告的基于MDP的方法进行比较。我们的方法在所有指标上都优于所有基于MDP的方法。即使没有对无人机数据集上的表示进行微调，我们的方法也优于以前的工作。经过微调后，我们可以获得预期的最佳性能。它显示了数据驱动方法在任何输入信号上学习表示的能力。

在本节的提醒中，我们通过消融研究分析了我们的表现的表现，以及对我们在更具体的任务中出现的更多见解。

4.2. Ablation Study

我们提出的框架的基本动机是解决以下两个挑战（如引言中所列）：有效地建模每个提示的历史，并有效地组合多个提示。我们现在在2DMOT2015挑战的验证集上展示针对这两个目标的实验[37]。对于我们的验证集，我们使用与[75]中相同的评估协议（训练和测试分开）。

历史的影响。与之前的相比，我们的表示的一个优点是能够跨时间学习提示的长期依赖性，即保留过去的信息。我们研究了改变LSTM的序列长度对跟踪精度的影响，其中LSTM的序列长度是训练LSTM时使用的展开时间步数。图7（b）显示了在我们的目标LSTM的不同LSTM序列长度下，验证集的不同组分的MOTA得分。我们可以看到，增加LSTM序列长度会对MOTA产生积极影响。在斯坦福无人机数据集上的3帧之后以及在MOT挑战数据集上的6帧之后，性能饱和。这些结果证实了我们的说法，即RNN可以有效地模拟提示的历史。此外，MOT和斯坦福数据集之间的差异可以通过数据集的差异来解释。无人机数据集没有任何长期遮挡，而MOT有完整的长期遮挡。我们的框架学习如何编码跨多个线索的长期时间依赖关系，这有助于从长期遮挡中恢复。我们声称，如果大多数遮挡小于n帧长，我们至少需要保持过去n帧的依赖性，以便能够从遮挡中恢复对象。图7（a）描述了在MOT数据集中少于6帧的大多数遮挡（超过80％）发生，这支持了在序列长度为6之后MOTA饱和的原因，见图7（b）。鉴于Drone数据集没有任何长期遮挡，我们的模型不需要长期依赖性。然而，我们可以看到，对两个数据集上的观察序列进行建模会对相似性得分产生积极影响，从而跟踪性能。

为了进一步支持我们使用RNN对MTT框架中的时间依赖性进行建模，我们使用FC而不是RNN进行实验。我们提供两个实验的结果，一个用FC替换目标LSTM，另一个用FC替换所有LSTM网络的实验。表2显示了该实验的结果。

多重线索的影响。我们通过测量验证集上MOTA的性能来研究不同线索在我们框架中的贡献。图8显示了我们的消融研究结果。外观提示是最重要的cue。每个cue都有助于提高性能。值得指出的是，我们提出的交互提示会对整体绩效产生积极影响。我们提出的目标LSTM（负责组合所有其他RNN）有效地推理所有线索以提高性能。表3报告了有关每个提示对各种跟踪指标的影响的更多详细信息。

4.3. Re-identification Task

为了完整起见，我们会报告外观cue在重新识别任务中的表现。我们使用与第3.2节中的外观特征提取器相同的预先训练的CNN构建了一个连体CNN。我们通过从两个MOT2D和CUHK03数据集中提取的正负样本训练我们的Siamese CNN [37,40]。我们从2DMOT2015和CUHK03中提取了超过500k的阳性和阴性样本。在MOT2D的情况下，我们使用在不同帧中出现的相同目标的实例用于正对，并且我们在所有帧中使用不同目标的实例用于负对。通过交叉验证选择网络超参数。小批量大小为64，学习率为0.001，每2个时期依次减少10倍（20个时期）。我们在CUHK03重新识别基准[89]上评估我们的外观模型。表4列出了我们对Rank 1，Rank 5和Rank 10准确度的结果。我们的方法达到了Rank 1的55.9％的准确率，这与最先进的方法（57.3％）相比具有竞争力。在测量Rank 10的重新识别率时，我们的外观模型优于以前的方法。这是表明我们的模型可以为重新识别任务提取有意义的特征表示的关键指标。

5. Conclusions

我们已经提出了一种方法，该方法在时间窗口上编码跨多个提示的依赖关系。我们学习的多线索表示用于在跟踪框架中计算相似性得分。我们通过使用我们提出的表示切换现有的最先进的表示，跟踪性能（以MOTA测量）增加了20％。因此，我们的方法在现有基准中排名第一。作为未来的工作，我们计划使用我们的数据驱动方法来跟踪任何社会动物，如蚂蚁。它们的外观和动态与人类截然不同。学习这种集体行为的表征并帮助生物学研究人员在他们的领域获得更多的见解将是令人兴奋的。

秒客网

论文翻译_Tracking The Untrackable_Learning To Track Multiple Cues with Long-Term Dependencies_IEEE2017

1. Introduction