Survey of single-target visual tracking methods based on online learning 翻译

时间:2021-10-21 02:32:28

基于在线学习的单目标跟踪算法调研

摘要

视觉跟踪在计算机视觉和机器人学领域是一个流行和有挑战的话题。由于多种场景下出现的目标外貌和复杂环境变量的改变,先进的跟踪框架就有必要采用在线学习的原理。本论文简要的介绍了一下关于视觉跟踪的挑战和应用,通过分类集中讨论基于在线学习的现代跟踪方法。我们提供了对每种分类中的代表性方法的详细描述,同时检查它们的优点和缺点。而且,一些最具代表性的算法被实现,来提供定量的参考。最后,我们列出了几个关于视觉跟踪研究的未来发展趋势。

1    引言

<未翻译>

2 生成式在线学习方法

通过搜索与目标模型最相似的区域,传统的生成式在线学习方法被用来跟踪目标。在线学习的策略被嵌入到跟踪框架下来根据外观的改变自适应的更新外观模型。下面,介绍了基于在线学习的生成式跟踪模型的最近的一些进展。这些方法的思想在于对外观表示的创新。

2.1 基于模板的方法

缺乏合适的外观模型是限制视觉跟踪算法性能的主要原因之一。由于固定的模型,传统的模板匹配跟踪方法不能适应外观改变。因此,基于在线学习的动态模板被用来对由于姿态和光照上的改变导致的目标外观改变进行表示。

【1】论证了一个基于小波的混合模型并使用了在线期望值(EM)最大算法来更新外观模型,并有效地获取基于运动跟踪器的跟踪参数。【2】将基于EM-算法的自适应外观模型嵌入到粒子滤波中获得了更好的鲁棒性。用了两个EM-算法,一个是用来更新外观模型,另一个用来获取跟踪参数。【3】通过随时间估计外观模型和更新直方图空间获取一个在线的EM算法。简要的说,在线EM算法的主要目的是在跟踪时,反复的估计和更新参数值。它最大的优势是简单和稳定。然而,大量的迭代容易陷入局部最优,减慢收敛可能导致目标丢失,甚至跟踪失败。

【4】描述了一种在线方法,通过鲁棒的增量主成分分析,能够更新降维的形状空间。这个算法能够保持目标的最新表达,来适应目标自己的改变和周围环境的改变。然而,在一次更新中,只有一个样本被处理。【5】将一张手的图片转变到定向梯度(HOG)的直方图网格。因此,一个被叫做IPCA-HOG被提出,用来帮助跟踪器处理手的外观改变和背景杂乱。

【6】提出了一个基于活性-轮廓形状和引导阶段的自动在线学习模型。引导程序被用来自动地从视频帧里抽取形状信息。【7】在高维形状空间定义了目标样本的存储来在线学习高级形状信息。然后,这些形状样本被用来定义模板。主要缺点是实时跟踪上太慢。而且,与大多数活性-轮廓跟踪框架相似,成功跟踪依赖于对参数值的经验选择,这些参数值控制着不同模型成分的相对贡献(重要性)。【8】提出了由多种特征类型的混杂模板,包括缩略图-纹理和平整度。这个混杂模板通过从前景中抽取最有识别力的特征,通过调整特征信心和用从当前的观测中得到新的有识别力的特征替代老的缺乏识别力的特征模板来对模板进行更新。多特征之间相互补充能够比单一特征更好地描述目标。

上述方法的主要缺点在于在模型维护中没有明确的替换无效的补丁。【9】提出了一个复合的模板,应用HOG-中心对称的局部二进制模式和颜色直方图来表示目标的边缘-纹理和平整度的局部统计特性,并通过增加从匹配模板和候选样本集中选择的新的有效的复合补丁来自动地在线更新。

【10】将观测模型分解并联的基本的观测模型来表示目标的外观。每个观测模型包括一个特别方面的目标外观,并通过稀疏PCA在每个时间步骤中动态的建立。全局的跟踪器通过基本的跟踪器级联起来。每个跟踪器控制某一个目标或周围环境的改变,使得算法对多种改变相当鲁棒。

然而,由于基础跟踪器的数量是固定的,上面方法对于在两帧图片之间有许多改变的复杂跟踪任务是不够的。【11】基于视觉跟踪分解(VTD),提出了一个跟踪器采样器来根据具体的变化,从跟踪器空间动态选择合适的跟踪器级联。在真实场景下这个算法的性能也非常好。然而,与多特征模板相比,选择有效模板显然增加了计算的开销。因此,没有更进一步的优化,这个方法不能适应实时跟踪的要求。

2.2 基于子空间分析的方法

不再利用简单模板来表示跟踪中的外观模型,在线学习的子空间表示能够被用来提供目标的简洁表示,同时反应跟踪过程的外观改变。子空间的概率模型方法有助于有效的计算。

基于一个推断的概率马尔科夫模型【12】提出了一个自适应的概率跟踪方法用来更新目标模型,通过增量特征向量更新。然后,【13】中考虑到样本均值随时间的改变,在学习算法中增加了一个增量均值封信。因此,目标外观的一个低维特征空间表示被学习,用来处理内在或者外在因素导致的改变。另外,【14】基于IPCA方法,嵌入了一个遗忘因子到增量子空间更新方法中,用来减小更早时候观测值对当前外观模型的作用。这个策略能够更加准确地更新外观模型来提高整个跟踪性能。然而,由于遗忘因子的引入,算法可能会丢掉好的目标而增加不好的目标,导致错误的恶化。

【15】提出了一个基于外观副本的在线增量算法,副本通过一些子副本(每个都是由一个PCA平面进行表示)和它们之间的联通性来近似。算法开发了一类目标的先验一般外观模型,通过对含有目标实例的视频帧的增量在线学习加入到这类目标的外观模型中。在这个框架下应用复杂的结构能够提供对在线更新过程以获得更准确外观模型进行更好的指导。算法的主要限制是需要一般先验的模型。也就是说,跟踪器不能跟踪没有被跟踪对象类的模型的目标。

上面提到的子空间学习方法都是基于图像即矢量的表示,不能充分利用带有图像全局信息的图像的空间结构信息,很容易导致高维数据学习问题。最近几年,利用图像即矩阵方法或者高位张量构建图像全局表示的算法被提出。为了更加有效的表示目标的外观,【16】通过自适应更新样本均值和特征矢量来增量学习一个三维短时张量子空间表示对目标的外观改变进行建模。

为了更好的处理光照改变,【17】通过将原始图像与同态滤波图像联合在一起,定义了一个加权的张量子空间表示。外观模型和光照由 不同通过光反射系数来反应,通过增量学习进行更新。根据作者,张量表示的权重不能自适应,而是由经验决定。【18】为了传导更加准确的模型,有五中模型的图像特征的协方差矩阵被用来捕获目标外观的统计和空间特性。通过增量学习对目标的每一个模型的特征空间表示,样本均值和特征矢量被在线更新来处理外观改变。对于协方差的计算,这个方法是时间消耗的,不能直接应用在实际应用中。

为了减小计算的开销,【19】提出了一个增量协方差模型更新的实时视觉跟踪方法。每个样本被权重关联起来给更新的样本在当前协方差张量表示的估计中更大的影响。

最近,【20】提供了一个子空间学习算法,基于嵌入图像,利用了局部连接图(LCG)。语义子空间模型被学习,通过构建一个带有标签样本的一些类型的监督图。LCG将微小错误与联合目标联合,来构建一个稳定的子空间,通过在跟踪前构建的投影。而且,根据语义信息,目标的样本被分为一些状态分类(比如旋转,遮挡和光照),LCG应用传统的标签约束来连接每个状态分类的子图来,来图在处理漂移问题时更加简洁和合理【21】。

2.3 基于稀疏表示的方法

稀疏约束,大多数外观都可以通过少量的基向量的线性组合。然后,跟踪被论证为在学习的模板子空间搜索具有最小重建误差的样本。

【22】【23】提出了L1-Tracker,周的学习报告中总结的就是这个(不再进行翻译)。不能处理大的姿态改变或完全遮挡

为了减少L1-Tracker的计算复杂度,【24】提出了实时压缩感知跟踪,利用了压缩感知的信号重建能力。【25】提出了2个阶段的稀疏优化方法。一个特征的稀疏集被选择用来最小化目标重建误差和最大化识别能力。训练集合模板库模型被在线更新,来强化跟踪器的鲁棒性。因为将目标建模为一个单一的实体,这个方法不能很好的处理部分遮挡。

为了对目标外观建模【26】使用静态的稀疏字典和动态在线更新的基础分布。一个新颖的字典学习算法带有局部约束稀疏表示叫做K-选择。

【27】建模和更新  根据无经验目标区域的亮度值,。不同种类的外观被建模,通过不同的子空间。一个类似的测量被定义用来估计目标候选样本和学习的外观模型之间的距离。然后,基于贝叶斯参考,最大后验估计被用来估计目标状态。

【28】在基础库中的子空间的结构联合体的稀疏线性组合,这个基础库由学习的本征模板集和一个可分割的遮挡模板集。更多的是,基于IPCA的学习原理被用来更新本征模板。

更新模板基于增量子空间学习和系数表示来处理漂移和部分遮挡问题。更新的方法使得跟踪器能够考虑外观改变。【30】将目标模板集的几何结构考虑在内,他们的新颖算法叫做非局部-自相似正则化编码,编译K最近邻来编码目标的结构信息。模板的权重被更新来捕获外观的改变。尽管有着鲁棒性的优点,然而,跟踪速度的缓慢仍然限制了它的应用。

3. 辨识式的在线学习方法

被叫做检测跟踪,把目标跟踪当作分类问题。不像生成式的方法,有辨识力的跟踪框架同时利用了目标和背景的信息。一个二分类器被训练来从背景中区分目标,并通过在线更新来处理外观和环境的改变。这个用到了目标和背景的信息。

下面,根据哪里采取的在线更新过程进行分类。

3.1 基于在线特征选择的方法

识别能力与特征空间相关。如果目标特征与环境很有分辨力的话,一个简单的跟踪器通常会有足够的能力去实现跟踪。与使用一个由先验知识决定的固定的特征集不同,它采用自适应的从相似特征空间进行在线选择被用来视觉跟踪。在这种方法中,特征排行机制能够自适应的选择排名最高的有分辨力的特征被嵌入到跟踪系统中。

【31】训练样本通过脸部图片的RGB空间获取,然后,RGB坐标通过颜色转换的函数,被转到一些别的颜色坐标中,比如规则化的RGB,XYZ,YCbCr,和YIQ坐标。基于线性有辨识力分析,一些不同的颜色空间被在线选择来构建面部跟踪直方图。

【32】为了选择最有辨识力的特征来把握外观的改变,所有候选特征都随着时间被排名通过测量目标和背景类分布的可分离性。可选择的特征被用来在新的一帧中标记像素是属于目标类还是背景类。

以上两种方法都采用了颜色直方图对目标和北京进行建模,限制了许多场合下的辨识能力。因此,当目标和背景补丁有着相似的颜色分布或者随着图像序列外观的改变幅度很大时,目标可能丢失,跟踪可能失败。

【33】利用了组织特征。加博滤波器被用来处理大的外观改变。算法对于视角是鲁棒的。然而,高维度的组织特征不适合在实时跟踪中应用。

【34】在存在的背景粒子的帮助下,嵌入特征选择过程在粒子滤波过程。有分辨力的特征通过Fisher判别式理论从一个大的特征空间在线选择。由于粒子滤波大量的特征的特点,实时跟踪能力依旧不令人满意。

【35】引入了2D-LDA 来直接分析2维图像矩阵而不是初始化时将2D图像转为矢量。利用2D-LDA,算法递归地选择有效的投影子空间来采取在线学习和快速计算。根据这个方法,模型被更新并不是在每一帧而是在混合帧间隔,这有助于快速计算。然而,如果大幅度的改变发生在两个更新操作之间,跟踪误差也会很大,甚至跟踪失败。

3.2 在线更新分类器的方法

如果一个特定的目标模型可用,二分类器能够在线学习。然而,如果没有跟踪目标外观的先验信息,因为缺乏训练样本,二分类器就必须在线学习。从此,这些基于在线学习的分类器被聚焦。假定当前帧的一个目标的初始的位置,在接下来的一帧中分类器在一个周围搜索区域估计许多可能位置。

使用AdaBoost来联合全体的弱分类器来构建一个强分类器。每一个弱分类器都通过不同的训练集在线训练。训练集是基于11维直方图特征空间,包括像素颜色和局部方向直方图。然后,一个强分类器被用来在下一帧标记像素属于目标还是北京,为了构建一个信任映射。映射的峰被认为是目标的当前位置。主要优点是令人满意的执行速度,归因于少的计算。然而,Adaboost对噪声样本敏感,在某种程度上会影响跟踪结果。

上面提到的在线更新策略能够有效的处理外观改变,短期遮挡和复杂背景。然而,随着在线模型更新的错误累积可能导致这些方法的漂移。【39】为了处理这样的问题,半监督的AdaBoost分类器被采用。【40】分类器的在线版本被提出来提高跟踪性能。根据这种方法,标签样本来仅仅自第一帧图像,后来训练的样本都保留为无标记。因此,很难精确地决定目标在第一帧的什么位置。外观模型被次优正样本更新,因为不精确的跟踪器。

为了解决这个问题,【41】在线多实例学习方法,基于boosting而不是传统监督学习。数据被表示为标签袋的形式,是一些实例的集合。一个由许多图片补丁组成的正袋子被用来更新MIL分类器。【42】提出了连贯的工作框架联合半监督和MIL去获得更加鲁棒和适应性。

MIL方法的计算开销经常是高的,因为需要处理正标签袋中的不确定的实例标签。为了解决这个问题,【43】提出了一种新颖的叫做批处理模式的自适应MIL,将训练袋子分为许多袋子的集合,而不是只利用训练包一次。分类器被更新,通过利用最新的预学习分类器和一批训练包。因此,MIL方法是更加适合实时跟踪应用。

通过用新的来替换弱分类器或者特征,来把握场景的改变。作为对照,【44】带有对弱分类器自身连续更新在线Boosting算法。自适应线性回归量被联合在在线Boosting ,被用来作为基础学习者。基础学习者的内部参数随时间被修改,所以这最终的分类器能够把握改变。遗忘机制也被用来减少先前数据的影响。

【45】对MIL问题的one-class版本的一个新颖的分析,意味着输入数据仅仅从以正袋子形式提供。 基于SVM的公式被用来解决这个问题。这个工作框架被引入来解决跟踪问题,用视频序列和对序列图片进行分段来构造正Bags来获取实例。

为了更好地利用历史跟踪信息,【46】提出了一个在线更新的线性SVM分类器的整体,能够自动从历史帧中选择目标的关键帧作为支持向量。通过在线更新,SVM跟踪器能够调整它的超平面数来获取最大的效果。

【47】叫做Laplacian 排名支持向量跟踪器。在下一帧的弱标签数据与初始帧的标签数据和最新的帧联合到一起来适应多种多样的外观改变在全遮挡中。

【48】综合利用特征袋的最近邻分类器和有效的子窗口搜索。这个框架获取一个简单和有效的算法来很好地处理多种多样的变化。然而,跟踪器不能精确的定位目标当目标形状发生变化时。

【49】在线随机深林算法,利用简单的Haar特征。在分类过程,在线打包和随机深林联合在一起来产生一个精确的树。而且,一个时间加权方案被采用来自适应的放弃掉一些树,基于袋外误差在给定的迭代次数,因此,新的树生长出来。很容易实现,收敛快。

【50】朴素贝叶斯分类器的。新的分类器在线训练通过连续的计算新的log-似然度。然后,mean-shift算法被用来,发现似然度的峰值,作为目标的最新位置。跟踪器对于背景和目标是鲁棒性的。然而,跟踪性能不令人满意,当目标移动迅速的时候。

【51】CT论文(不再详细翻译)由于在线学习的策略,先前学习的样本很容易被忘记。因此,一旦误差发生,算法会随着时间一步步的漂移。

自适应跟踪方法遭遇的漂移问题,与模型误差随时间的积累有关,因为依赖在线的自我更新。半监督和MIL是最通常用来处理漂移问题。

【52】结合正规化的互关系,基于光流(作为一个高度自适应的元素)的Mean-shift跟踪器,在线随机深林(作为一个适度自适应基于外观的学习器)在一个串联模式下,解决漂移问题。这种方法的一个特别的优势是能够在没有预先调整下对未看见的帧表现良好的执行性能。另外,系统的每一个单独的部分能够很容易地相互交换,并且采用更加有力的跟踪器能够增强跟踪性能。

【53】利用最近的和历史的数据加权容器采用。跟踪性能被提高,通过更新目标外观模型没有丢失先前外观。而且,由于过去的信息没有完全的丢失,新的和旧的信息的结合能够帮助跟踪器从漂移中恢复。

由于跟踪在一个低帧率下,【54】采用了一系列带有不同学习周期和服务周期的观测模型来强化辨识能力和效率。每个观察者从不同范围的样本中学习,带有不同特征子集,在不同的开销下,获取不同的辨识能力水平。然后,一个有效率的融合和循序推理被操作,通过串联上由多阶段重要性采样组成的粒子滤波。这种跟踪器能够准确定位目标。然而,漂移,最终导致跟踪失败,能够导致通过仅有的依赖在线知识。

【55】允许突发的重新发现跟踪目标。主要的优势是在部分或者全部遮档之后,最终重新发现目标。

【56】受到人类视觉知觉的激励,新颖的注意力视觉跟踪算法,反映了某些空间选择注意力的方面。算法定义了一个注意力区域的池子去表示目标和动态的选择有辨别力的注意力区域的子集,通过一个对历史数据的有 辨识力的学习。而且,通过介绍了一个局部敏感的哈希法到在线跟踪,使得计算AVT变得可行。

为了保证长期跟踪,【57】提供了一个鲁棒性的跟踪器,明确的将它的任务分解为跟踪,学习和检测(TLD)。根据这种方法,跟踪器利用基于Kanade-Lucas-Tomasi特征跟踪器的自适应的短期方法。【58】基于随机深林的分类器被用到检测中。【59】正和负的学习模块评定两种误差(错误的正样本和错误的负样本)根据跟踪模块的结果,根据估计的结果生成训练样本,之后更新目标模型。这关键点是同时更新的,以避免相似的错误。TLD算法精巧的结合TLD来达到目标跟踪的目的。然而,仍然有许多挑战要处理,比如,TLD在整个出平面外的旋转时,就不能表现很好。因为它有许多可调参数,所以它应该是一个在实践中有用的框架。

3.3基于在线度量学习的方法

有学习的分类器的目标函数是用来进行匹配和跟踪。对大多数有识别力的模型,提前指定固定的距离度量被采用,比如欧式距离,巴氏距离,它们之间的结合等等。由于预定义的度量并不一定保证最近的匹配就是感兴趣的目标,通过找到最好的特征空间的投影来继续拧自适应的学习和调整距离度量的方法被提了出来。为了鲁棒性的跟踪,距离度量被学习用来捕获不同特征大小之间的互信息。外观建模和匹配被在线执行通过一些优化算法,这就是现在要讨论的。

【60】提出了一个机遇马氏度量形式学习方法。在这个算法中,外观建模和视觉匹配被同时地在线执行通过有效的基于梯度的优化。训练样本直接从基于一个有原则的规则的开销函数中获得。这个跟踪矿建能够处理多种有挑战的情景。然而,没有优化,算法是耗时的,因此不能适合实时应用。

【61】嵌入了一个邻居成分分析,自适应的学习马氏距离度量。然后,KNNs分类器,有着最近邻的软表示,在在线的距离度量学习下,被用来预测输入数据点的类标签。这种方法特别适合很杂乱和扰乱的环境。另外,因为降维,计算的效率被显著的加强。2012年,在线稀疏正则化被引入到稀疏正则化的学习中【62】,用来避免更大的分类误差,更高的计算消耗和过拟合,这些有可能是不恰当大小的投影度量空间导致的。

【63】监督在线距离度量学习和最近邻分类器的结合。基于尺度不变特征的抽取的图像块的特征新颖表示被提出。此外,在模板库中编码的一个先前的外观集与尺度不变特征相结合来表示目标的模型。距离度量和模板库在线更新以更好适应外观改变。然而,跟踪精度会手噪声或者不相干特征的退化。

为了捕获不同特征尺寸的相关性,【64】往在线度量学习中嵌入了一个基于非稀疏线性表示的跟踪算法。而且,为了防止训练样本数目的无限增长,他们设计了一个时间加权容器采样方法来平衡样本多样性和适应性。在可比的精度下,这个算法比最近的基于稀疏线性表示的跟踪器更加快速。

【65】在线度量学习和基于图片的半监督学习的自适应跟踪方法。新的图片模型,叫做bi-linear 图,用来测量新数据的在线样本传播的相似性。训练样本和测试样本被用来做出一个更好的决定。

最近,基于检测的跟踪是最流行的跟踪策略。然而,因为在训练和不精确的实例中的误差的累积,一个在线更新的分类器很容易漂移。因此在提高跟踪稳定性的条件下保证更好的适应性依然是一个富有挑战的困难。

4. 联合方法

生成式跟踪方法仅仅对目标外观建模,在复杂的背景下容易失败。作为对照,有辨识力的方法能够处理显著外观改变,复杂背景和短期的遮挡。然而,对噪声敏感,遭受漂移问题,同时容易被其他与目标外观相似的其他物体干扰。因此,为了获得更有效率的跟踪方法,一些研究者最近从两种类型结合中获益。

【66】试着建立有识别力的生成式模型,观测模型在线建立,有识别力的 方法被用来预测目标的方位。

【67】利用局部生成式模型的方法来约束分类器中局部特征的选择。外观模型通过局部非负矩阵因式分解,从最初几帧中计算出来。另外,当前帧被遮挡区域的信息被嵌入到在线特征选择的阶段。

【68】基于图像有辨识力的跟踪框架,将ISL和Fisher判别式分析结合起来。目标和图的局部解剖结构同时在线更新来捕获外观改变,可靠地将目标从背景中分离出来。这种方法旨在保持内在的紧凑性来提高定位的准确性和效率。然而,漂移错误积累在跟踪过程中将会持续变大。

【69】采用了协同训练方法来联合生成式和辨别式模型。生成式模型基于多子空间特征的在线学习,来描述目标的完整的外观,并适应多种多样外观改变。有辨识力模型基于HOG特征的增量学习SVM分类器,被训练来几种最近外观的变化。这种方法有着强的重捕获能力和鲁棒性。然而,突然的外观改变和遮挡是他不能处理的问题。

为了解决由粗糙形状表示或者背景干扰导致的漂移问题,【70】将全局形状信息和基于目标边界的区域概率嵌入局部图链接在一个条件随机场工作框架下【71】来减少积累的像素分类错误。

【72】提出了一个概率框架来共同执行分割和跟踪。像素级分割的目标是获取目标的准确边界和基于一个修改的概率PCA概率模型。同时考虑跟踪和分割,这个方法能够在困难的场景下鲁棒的跟踪。然而,不是仅仅亮度而是更多的特征应该用来避免目标丢失。另外,不适合实时跟踪。

【73】学习稀疏编码和直接来自未加工的图像块的线性分类器。在目标里面的所有灰度图像块的稀疏编码是串联的,被用来目标表示。两个阶段的跟踪方法来解释外观改变和减轻漂移问题【74】。

【75】受启发于在线稀疏编码  新的机遇稀疏表示和粒子滤波的跟踪框架。每个候选样本通过目标模板和背景模板来表示,带有一个额外的表示错误来适应外观改变。目标模板或者背景模板在一个激烈的方式下被激活来获取识别目标和环境的能力。目标模板和背景模板通过一个加权策略,在线基础学习算被用来学习错误基础集。

5. 实验对照

<未翻译>

6. 结论和未来方向

外观改变是使得对感兴趣的目标进行精确和快速地跟踪比较困难的至关重要的原因。为了处理它,在线学习的方法最近被嵌入,来构建在跟踪过程能够适应外观改变的自适应工作框架。

这篇综述中,基于在线学习方法的现代单目标视觉跟踪算法重温一下,被分为两种类型:生成式和辨识式。总结一下,生成式方法仅仅利用目标的外观,而不用背景的信息。辨识式方法利用到了背景和目标的信息。

在视觉跟踪领域,根据大多数文献,通常采用成功跟踪的帧数和平均位置误差来定量评估跟踪性能。

通常地,在有足够的训练样本时,辨识式方法要比生成式方法更好。而在用来训练的实例较小,生成式方法要比辨识式方法好。也就是说,分开利用两种方法,在实际的视觉跟踪中是不鲁棒的。一个有前途的方向是集成两种类型的在线学习方法的优势来获得更好的性能,最新的联合方法已经在论文中分析过。尽管生成式方法的普遍性能能够通过有区别地训练提高,但是辨识式生成式模型的不合理杂合甚至比单纯的生成式或者辨识式方法的性能还要差,这样的话,是不值得做的。

尽管在线学习的跟踪方法获得了丰富的成功,但是与生俱来的漂移问题需要彻底的研究。为了提升基于在线学习的视觉跟踪方法,有一些可能的方向。

最近,一个为了限制漂移问题的策略被大多数存在的方法所采用,就是保持目标不远离固定的先验外观模型。然而,在快速的改变中,相似的目标或者过分约束的模型仍可能导致漂移。比较的说,合并分割绝对是一个更加切实可行的方法。然而,在复杂的环境中获得准确的分割是不容易的。

一些合理的推测已经被用在跟踪里,通过上下文信息,比如当紧邻的目标与感兴趣的目标,目标自身的部分区域,运动目标的轨迹,目标的踪迹或者速度和目标的加速之间相关时。很清晰的是:利用上下文的目标跟踪算法能够充分利用图像中信息。理论上,基于上下文跟踪的方法能比其他别的方法获得更好的结果。但是,上下文信息很难表示。尽管基于上下文信息的方法已经处在成型的阶段,上下文信息的集成在视觉跟踪研究中扮演着越来越重要的角色。

另外,随着神经和心理的发展,基于生物视觉机理的研究,比如视觉注意力,特征学习,记忆和想象等,在最近几年,已经吸引了一定的注意力。利用生物视觉机理的仿真来建立一个相应的人工神经网络模型和甚至认识到人类视觉系统的功能,已经成为了视觉跟踪的一个非常重要的方向。

总结一下,寻找效率和精度或者适应性和稳定性之间的分类难题在视觉跟踪领域是一个进退两难的问题。随着数学理论应用的近些年,有效的数学工具能够被用来处理视觉跟踪难题。上面介绍的基于在线学习的跟踪算法希望能够为相关领域的研究者和工程师提供一个有益的参考。

7.参考文献

1 Jepson, A.D., Fleet, D.J.,El-Maraghi, T.F.: ‘Robust online appearance models for visual tracking ’. Proc.IEEE Conf. Computer Vision and Pattern Recognition (CVPR), Kauai, HI, USA,December 2001, pp. 415 –422

2 Zhou, S., Chellappa, R., Moghaddam, B.: ‘Visual tracking and recognitionusing appearance-adaptive models in particle filters’, IEEE Trans. ImageProcess., 2004, 13, (11), pp. 1491 –1506

3 Tu, J.L., Tao, H.: ‘Online updating appearance generative mixture model formeanshift tracking ’. Proc. Asian. Conf. Computer Vision (ACCV), Hyderabad,India, January 2006, pp. 694 –703

4 Fussenegger, M., Roth, P., Bischof, H., Deriche, R., Pinz, A.: ‘A level setframework using a new incremental, robust active shape model for objectsegmentation and tracking ’, Image Vis. Comput., 2009, 27, (8), pp. 1157 –1168

5 Yang, H.X., Song, Z., Chen, R.N.: ‘An incremental PCA-HOG descriptor forrobust visual hand tracking ’. Proc. Int. Symp. Visual Computing (ISVC), LasVegas, Nevada, USA, November 2010, pp. 687 –695

6 Chiverton, J., Xie, X.H.: ‘Automatic bootstrapping and tracking of objectcontours’, IEEE Trans. Image Process., 2012, 21, (3), pp. 1231 –1245

7 Chiverton, J., Mirmehdi, M., Xie, X.H.: ‘On-line learning of shapeinformation for object segmentation and tracking ’. Proc. British MachineVision Conf. (BMVC), London, UK, September 2009, pp. 1 –11

8 Liu, X.B., Lin, L., Yan, S.C., Jin, H., Jiang, W.B.: ‘Adaptive objecttracking by learning hybrid template online ’, IEEE Trans. Circuits Syst. VideoTechnol., 2011, 21, (11), pp. 1588 –1599

9 Xu, Y.L., Zhou, H.F., Wang, Q., Lin, L.: ‘Real time object of interesttracking by learning composite patch-based templates’. Proc. IEEE Int. Conf.Image Processing (ICIP), Orlando, FL, USA, September 2012, pp. 389 –392

10 Kwon, J., Lee, K.M.: ‘Visual tracking decomposition’. Proc. IEEE Conf.Computer Vision and Pattern Recognition (CVPR), San Francisco, CA, USA, June2010, pp. 1269 –1276

11 Kwon, J., Lee, K.M.: ‘Tracking by sampling trackers’. Proc. IEEE Int. Conf.Computer Vision (ICCV), Barcelona, Spanish, November 2011, pp. 1195 –1202

12 Ross, D., Lim, J., Yang, M.H.: ‘Adaptive probabilistic visual tracking withincremental subspace update ’. Proc. European Conf. Computer Vision (ECCV),Prague, Czech Republic, May 2004, pp. 470 –482

13 Lim, J., Ross, D., Lin, R.S., Yang, M.H.: ‘Incremental learning for visualtracking ’, in Weiss, Y., Bottou, L., (Eds.), ‘Advances in neural informationprocessing systems’ (MTI Press, 2005), pp. 793 –800

14 Ross, D., Lim, J., Yang, M.H.: ‘Incremental learning for robust visualtracking ’, Int. J. Comput. Vision, 2008, 77, (3), pp. 125 –141

15 Lee, K., Kriegman, D.: ‘Online learning of probabilistic appearancemanifolds for video-based recognition and tracking ’. Proc. IEEE Conf. ComputerVision and Pattern Recognition (CVPR), San Diego, USA, June 2005, pp. 852 –859

16 Li, X., Hu, W.M., Zhang, Z.F.: ‘Robust visual tracking based on incrementaltensor subspace learning ’. Proc. IEEE Int. Conf. Computer Vision (ICCV), Riode Janeiro, Brazil, October 2007, pp. 1 –8

17 Wen, J., Gao, X.: ‘Incremental learning of weighted tensor subspace forvisual tracking ’. Proc. IEEE Int. Conf. Systems, Man and Cybernetics (SMC),San Antonio, TX, USA, October 2009, pp. 3688 –3693

18 Li, X., Hu, W., Zhang, Z., Zhang, X., Luo, G.: ‘Visual tracking viaincremental log-Euclidean Riemannian subspace learning ’. Proc. IEEE Conf.Computer Vision and Pattern Recognition (CVPR), Anchorage, Alaska, USA, June2008, pp. 1 –8

19 Wu, Y., Cheng, J., Wang, J., Lu, H.: ‘Real-time visual tracking viaincremental covariance tensor learning ’. Proc. IEEE Int. Conf. Computer Vision(ICCV), Kyoto, Japan, September 2009, pp. 1631 –1638

20 Lu, K., Ding, Z.M., Ge, S.: ‘Locally connected graph for visual tracking ’.Neurocomputing, 2013, 120, pp. 45 –53

21 Matthews, L., Ishikawa, T., Baker, S.: ‘The template update problem’, IEEETrans. Pattern Anal. Mach. Intell., 2004, 26, (6), pp. 810 –815

22 Mei, X., Ling, H.B.: ‘Robust visual tracking using l1 minimization’. Proc.IEEE Int. Conf. Computer Vision (ICCV), Kyoto, Japan, September 2009, pp. 1436–1443

23 Mei, X., Ling, H.B.: ‘Robust visual tracking and vehicle classification viasparse representation’, IEEE Trans. Pattern Anal. Mach. Intell., 2011, 33,(11), pp. 2259 –2272

24 Li, H.X., Shen, C.H., Shi, Q.F.: ‘Real-time visual tracking usingcompressive sensing ’. Proc. IEEE Conf. Computer Vision and Pattern Recognition(CVPR), Colorado Springs, CO, USA, June 2011, pp. 1305 –1312

25 Liu, B., Yang, L., Huang, J., Meer, P., Gong, L., Kulikowski, C.A.: ‘Robustand fast collaborative tracking with two stage sparse optimization’. Proc.European Conf. Computer Vision (ECCV), Grete, Greece, September 2010, pp. 624–637

26 Liu, R., Huang, J.Z., Yang, L., Kulikowsk, C.A.: ‘Robust tracking usinglocal sparse appearance model and K-selection’. Proc. IEEE Conf. ComputerVision and Pattern Recognition (CVPR), Colorado Springs, CO, USA, June 2011,pp. 1313 –1320

27 Chen, F., Wang, Q., Wang, S., Zhang, W.D., Xu, W.L.: ‘Object tracking viaappearance modeling and sparse representation’, Int. J. Image Vis. Comput.,2011, 29, pp. 787 –796

28 Bai, T.X., Li, Y.F.: ‘Robust visual tracking with structured sparserepresentation appearance model ’, Pattern Recognit., 2012, 45, (6), pp. 2390–2404

29 Jia, X., Lu, H., Yang, M.H.: ‘Visual tracking via adaptive structural localsparse appearance model ’. Proc. IEEE Conf. Computer Vision and PatternRecognition (CVPR), Providence, Rhode Island, USA, June 2012, pp. 1822 –1829

30 Lu, X.Q., Yuan, Y., Yan, P.K.: ‘Robust visual tracking with discriminativesparse learning ’, Pattern Recognit., 2013, 46, (7), pp. 1762 –1771

31 Stern, H., Efros, B.: ‘Adaptive color space switching for face tracking inmulti-colored lighting environments’. Proc. IEEE Int. Conf. Automatic Face andGesture Recognition, Washington, DC, USA, May 2002, pp. 236 –241

32 Collins, R.T., Liu, Y.X., Leordeanu, M.: ‘Online selection of discriminativetracking features’, IEEE Trans. Pattern Anal. Mach. Intell., 2004, 27, (10),pp. 1631 –1643

33 Nguyen, H.T., Smeulders, A.: ‘Tracking aspects of the foreground against thebackground’. Proc. European Conf. Computer Vision (ECCV), Prague, CzechRepublic, May 2004, pp. 446 –456

34 Wang, J., Chen, X., Gao, W.:‘ Online selecting discriminative tracking features using particle fi lter’ .Proc. IEEE Conf. Computer Vision and Pattern Recognition (CVPR), San Diego, CA,USA, June 2005, pp. 1037 – 1042

35 Li, G., Liang, D., Huang, Q., Jiang, S.Q., Gao, W.: ‘ Object tracking usingincremental 2D-LDA learning and Bayes inference ’ . Proc. IEEE Int. Conf. ImageProcessing (ICIP), San Diego, California, USA, October 2008, pp. 1568 –1571

36 Avidan, S.: ‘ Ensemble tracking ’ . Proc. IEEE Conf. Computer Vision andPattern Recognition (CVPR), San Diego, CA, USA, June 2005, pp. 494 –501

37 Grabner, H., Bischof, H.: ‘ On-line boosting and vision’ . Proc. IEEE Conf.Computer Vision and Pattern Recognition (CVPR), New York, NY, USA, June 2006,pp. 260 –267

38 Grabner, H., Bischof, H.: ‘ Real-time tracking via on-line boosting ’ .Proc. British Machine Vision Conf. (BMVC), Edinburgh, England, September 2006,pp. 47 – 56

39 Leistner, C., Granber, H., Bischof, H.: ‘ Semi-supervised boosting usingvisual similarity learning ’ . Proc. IEEE Conf. Computer Vision and PatternRecognition (CVPR), Anchorage, Alaska, USA, June 2008, pp. 1 – 8

40 Grabner, H., Leistner, C., Bischof, H.: ‘ Semi-supervised on-line boostingfor robust tracking ’ . Proc. European Conf. Computer Vision (ECCV), Marseille,France, October 2008, pp. 234 –247

41 Babenko, B., Yang, M.H., Belongie, S.: ‘ Visual tracking with onlinemultiple instance learning ’ . Proc. IEEE Conf. Computer Vision and PatternRecognition (CVPR), Miami, Florida, USA, June 2009, pp. 983 –990

42 Zeisl, B., Leistner, C., Saffari, A., Bischof, H.: ‘ On-line semi-supervisedmultiple-instance boosting ’ . Proc. IEEE Conf. Computer Vision and PatternRecognition (CVPR), San Francisco, CA, USA, June 2010, pp. 1879 – 1886

43 Li, W., Duan, L.X., Tsang, I.W., Xu, D.: ‘ Batch mode adaptive multipleinstance learning for computer vision tasks’ . Proc. IEEE Conf. Computer Visionand Pattern Recognition (CVPR), Providence, Rhode Island, USA, June 2012, pp.2368 – 2375

44 Parag, T., Porikli, F., Elgammal, A.: ‘ Boosting adaptive linear weakclassifi ers for online learning and tracking ’ . Proc. IEEE Conf. ComputerVision and Pattern Recognition (CVPR), Anchorage, Alaska, USA, June 2008, pp. 1– 8

45 Sankaranarayanan, K., Davis, J.W.: ‘ One-class multiple instance learningand applications to target tracking ’ . Proc. Asian Conf. Computer Vision(ACCV), Daejeon, Korea, November 2012, pp. 1 –14

46 Tian, M., Zhang, W., Liu, F.: ‘ On-line ensemble SVM for robust objecttracking ’ . Proc. Asian Conf. Computer Vision (ACCV), Tokyo, Japan, November2007, pp. 355 –364

47 Bai, Y.C., Tang, M.: ‘ Robust tracking via weakly supervised ranking SVM ’ .Proc. IEEE Conf. Computer Vision and Pattern Recognition (CVPR), Providence,Rhode Island, USA, June 2012, pp. 1855 –1861

48 Gu, S., Zheng, Y., Tomasi, C.: ‘ Effi cient visual object tracking withonline nearest neighbor classifi er’ . Proc. Asian Conf. Computer Vision(ACCV), Queenstown, New Zealand, November 2011, pp. 271 –282

49 Saffari, A., Leistner, C., Santner, J., Godec, M., Bischof, H.: ‘ On-linerandom forests’ . Proc. IEEE Int. Conf. Computer Vision Workshop (ICCVWorkshop), Kyoto, Japan, October 2009, pp. 1393 –1400

50 Petrovic, N., Jovanov, L., Pizurica, A., Philips, W.: ‘ Object trackingusing naive bayesian classifi ers’ . Proc. Int. Conf. Advanced Concepts forIntelligent Vision, Juan-les-Pins, France, October 2008, pp. 775 –784

51 Zhang, K.H., Zhang, L., Yang, M.: ‘ Real-time compressive Tracking ’ . Proc.European Conf. Computer Vision (ECCV), Firenze, Italy, October 2012, pp. 864 –877

52 Santner, J., Leistner, C., Saffari, A., Pock, T., Bischof, H.: ‘ PROST:parallel robust online simple tracking ’ . Proc. IEEE Conf. Computer Vision andPattern Recognition (CVPR), San Francisco, CA, USA, June 2010, pp. 1 –8

53 Yao, R., Shi, Q.F., Shen, C.H.: ‘ Robust tracking with weighted onlinestructured learning ’ . Proc. European Conf. Computer Vision (ECCV), Firenze,Italy, October 2012, pp. 158 –172

54 Li, Y., Ai, H.Z., Yamashita, T., Lao, S.H., Kawade, M.: ‘ Tracking in lowframe rate video: a cascade particle fi lter with discriminative observers ofdifferent life spans’ , IEEE Trans. Pattern Anal. Mach. Intell., 2008, 30,(10), pp. 1728 –1740

55 Stalder, S., Grabner, H., Gool, L.V.: ‘Dynamic objectness for adaptivetracking ’. Proc. Asian Conf. Computer Vision (ACCV), Daejeon, Korea, 2012, pp.43 –56

56 Yang, M., Yuan, J., Wu, Y.:‘Spatial selection for attentional visual tracking ’. Proc. IEEE Conf. ComputerVision and Pattern Recognition (CVPR), Minneapolis, Minnesota, USA, June 2007,pp. 1 –8

57 Kalal, Z., Mikolajczyk, K., Matas, J.: ‘Tracking-learning-detection’, IEEETrans. Pattern Anal. Mach. Intell., 2012, 34, (7), pp. 1409 –1422

58 Kalal, Z., Matas, J., Mikolajczyk, K.: ‘Online learning of robust objectdetectors during unstable tracking ’. Proc. IEEE Int. Conf. Computer VisionWorkshop (ICCV Workshop), Kyoto, Japan, October 2009, pp. 1417 –1424

59 Kalal, Z., Matas, J., Mikolajczyk, K.: ‘P-N learning: boot-strapping binaryclassifiers by structural constraints’. Proc. IEEE Conf. Computer Vision andPattern Recognition (CVPR), San Francisco, CA, USA, June 2010, pp. 49 –56

60 Wang, X.Y., Hua, G., Han, T.X.: ‘Discriminative tracking by metric learning’. Proc. European Conf. Computer Vision (ECCV), Grete, Greece, September 2010,pp. 200 –214

61 Jiang, N., Liu, W.Y., Wu, Y.: ‘Learning adaptive metric for robust visualtracking ’, IEEE Trans. Imaging Process., 2011, 20, (8), pp. 200 –214

62 Jiang, N., Liu, W.Y., Wu, Y.: ‘Order determination and sparsity-regularizedmetric learning for adaptive visual tracking ’. Proc. IEEE Conf. ComputerVision and Pattern Recognition (CVPR), Providence, Rhode Island, USA, June2012, pp. 1956 –1963

63 Tsagkatakis, G., Savakis, A.: ‘Online distance metric learning for objecttracking ’, IEEE Trans. Circuits Syst. Video Technol., 2011, 21, (12), pp. 1810–1821

64 Li, X., Shen, C.H., Shi, Q.F., Dick, A., Hengel, A.V.: ‘Non-sparse linearrepresentations for visual tracking with online reservoir metric learning ’.Proc. IEEE Conf. Computer Vision and Pattern Recognition (CVPR), Providence,Rhode Island, USA, June 2012,
pp. 1760 –1767

65 Cong, Y., Yuan, J.S., Tang, Y.D.: ‘Object tracking via online metriclearning ’. Proc. IEEE Int. Conf. Image Processing (ICIP), Orlando, Florida,USA, September 2012, pp. 417 –420

66 Lin, R.S., Ross, D., Lim, J., Yang, M.H.: ‘Adaptive discriminativegenerative model and its applications’, Adv. Neural Inf. Process. Syst., 2004,17, pp. 801 –808

67 Woodley, T., Stenger, B., Cipolla, R.: ‘Tracking using online featureselection and a local generative model ’. Proc. British Machine Vision Conf.(BMVC), UK, September 2007, pp. 790 –799

68 Zhang, X.Q., Hu, W.M., Maybank, S., Li, X.: ‘Graph based discriminativelearning for robust and efficient object tracking ’. Proc. IEEE Int. Conf.Computer Vision (ICCV), Rio de Janeiro, Brazil, October 2007, pp. 1 –8

69 Yu, Q., Dinh, T.B., Medioni, G.: ‘Online tracking and reacquisition usingco-trained generative and discriminative trackers’. Proc. European Conf.Computer Vision (ECCV), Marseille, France, October 2008, pp. 678 –691

70 Yin, Z., Collins, R.T.: ‘Shape constrained figure-ground segmentation andtracking ’. Proc. IEEE Conf. Computer Vision and Pattern Recognition (CVPR),Miami, Florida, USA, June 2009, pp. 731 –738

71 Kumar, S., Hebert, M.: ‘Discriminative random fields’, Int. J. Comput. Vis.,2006, 68, (2), pp. 179 –201

72 Aeschliman, C., Park, J., Kak, A.C.: ‘A probabilistic framework for jointsegmentation and tracking ’. Proc. IEEE Conf. Computer Vision and PatternRecognition (CVPR), San Francisco, CA, USA, June 2010, pp. 1371 –1378

73 Wang, Q., Chen, F., Xu, W.L., Yang, M.: ‘Online discriminative objecttracking with local sparse representation’. Proc. IEEE Workshop on Applicationsof Computer Vision (WACV), Clearwater, Florida, USA, January 2012, pp. 425 –432

74 Zhang, S.P., Ya, H.X., Zhou, H.Y., Sun, X., Liu, S.H.: ‘Robust visualtracking based on online learning sparse representation’, Neurocomputing, 2013,100, pp. 31 –40

75 Yang, M., Wu, Y., Lao, S.: ‘Intelligent collaborative tracking by miningauxiliary objects’. Proc. IEEE Conf. Computer Vision and Pattern Recognition(CVPR), New York, NY, USA, June 2006, pp. 697 –704

76 Grabner, H., Matas, J., Gool, L.V., Cattin, P.: ‘Tracking the invisible:learning where the object might be ’. Proc. IEEE Conf. Computer Vision andPattern Recognition (CVPR), San Francisco, CA, USA, June 2010, pp. 1285 –1292

77 Liu, Z., Shen, H., Feng, G.Y., Hua, D.W.: ‘Tracking objects using shapecontext matching ’, Neurocomputing, 2012, 83, pp. 47 –55

78 Barranco, F., Díaz, J., Ros, E., Del Pino, B.: ‘Visual system based onartificial retina for motion detection’, IEEE Trans. Syst. Man Cybern. B,Cybern., 2009, 39, (3), pp. 752 –762