CVPR 2018 | 哈工大提出STRCF:克服遮挡和大幅形变的实时视觉追踪算法

选自arxiv
作者:fengli等机器之心编译参与:nurhachunull、刘晓坤
视觉追踪在多样本的历史追踪结果中学习时,可能遭遇过拟合问题,并在有遮挡的情况下导致追踪失败。为此,哈尔滨工业大学在本文中提出了strcf。通过引入时间正则化,strcf可以在有遮挡情况下来成功追踪目标,同时能够很好地适应较大的外观变化。该模型在准确率、鲁棒性和速度方面都表现良好,可实时追踪目标。
最近几年我们见证了判别相关滤波器(dcf)在视觉追踪领域的飞速进展。利用训练样本的周期性假设,通过快速傅立叶变换(fft)可以在频域中非常高效地学习dcf。例如,最早的基于dcf的追踪器(即mosse[4]的追踪速度可以达到每秒700帧(fps)。随着特征表示[14,28]、非线性核[19]、尺度估计[11,23,24]、最大边缘分类器[43]、空间正则化[13,18]以及连续卷积[5]的引入,基于dcf的追踪算法得到了显著的改进,极大地提高了追踪准确率。然而,这种性能改进也带来了额外成本。大多数排名靠前的追踪器,例如srdcf[13]和c-cot[15],已经逐渐失去早期的基于dcf追踪器的特征速度和实时追踪能力。例如,使用人工设计的hog特征的srdcf[13]的速度为大约6fps,而基线kcf[19]的速度大约是170fps。
图1:(a)strcf和srdcf[13]方法在具有遮挡和形变的两个序列上的结果。(b)srdcf的变体和使用hog特征的strcf在otb-2015和temple-color数据集上关于op(%)和速度(fps)的比较。最佳结果分别以红色、蓝色和绿色字体显示。
为了更好地理解这个问题,本文剖析了srdcf中准确率和速度之间的权衡。一般而言,srdcf的低效率可归因于三个因素:(i)尺度估计;(ii)空间正则化;以及(iii)大规模训练集形式。图1b列出了srdcf及其变体在两个流行基准上的追踪速度和准确率,其中包括srdcf(—m)(即去除了(iii))、srdcf(—ms)(即去除(ii)&和(iii)),以及kcf(即去除(i)、(ii)和(iii))。作者注意到,在去除(iii)时,可以采用线性插值[4,11]作为在线模型更新的替代策略。从图1(b)中可以看出,当添加尺度估计时,追踪器仍然保持实时能力(约33fps)。但随着空间正则化和大规模训练集形式的进一步引入,追踪速度明显下降。因此,开发一种使用(ii)和(iii)的解决方案而不损失效率才是有价值的。
本文研究了在不损失效率的情况下,利用空间正则化和大型训练集形式的优点的方法。一方面,srdcf的高复杂度主要来源于对多幅图像的训练形式。通过去除约束条件,单图像样本上的srdcf可以通过admm有效地解决。由于srdcf的凸性,admm也能保证收敛到全局最优。另一方面,在srdcf算法中,将空间正则化集成到多幅图像的训练形式中,实现了dcf学习与模型更新的耦合,提高了追踪准确率。在在线被动攻击(pa)学习[6]的启发下,作者将时间正则化方法引入到单图像srdcf中,得到了时空正则化相关滤波器(strcf)。strcf是多训练图像上srdcf形式的合理近似,也可用于同时进行dcf学习和模型更新。此外,admm算法也可以直接用于求解strcf。因此,本文提出的strcf将空间正则化和时间正则化结合到dcf中,可以用来加速srdcf。
此外,作为在线pa算法[6]的扩展,strcf还可以在外观大幅变化的情况下实现比srdcf更鲁棒的外观建模。图1(a)展示了对具有遮挡和变形的两个序列的追踪结果。与srdcf相比,引入时间正则化后的strcf对遮挡具有更强的鲁棒性,同时能够很好地适应较大的外观变化。
从图1(b)中可以看出,strcf不仅以实时追踪速度(约30fps)运行,而且通过在两个数据集上的平均op,其性能比srdcf提高了5.7%。综上所述,strcf在所有数据集上均比基线srdcf有显著改进,追踪速度提高了5倍以上。
作者在几个基准上进行了比较实验,包括otb-2015[40]、temple-color[25]、vot-2016[22]。与最先进的基于cf(相关滤波器)和cnn追踪器相比,strcf在准确率、鲁棒性和速度方面都表现良好。
这篇论文的主要贡献如下:
通过将空间和时间正则化纳入dcf框架,提出了strcf模型。基于在线pa的strcf不仅可以合理地逼近多幅训练图像上的srdcf形式,而且在较大的外观变化情况下比srdcf具有更强的鲁棒性。为高效求解strcf,开发了一种admm算法,其中每个子问题都有封闭形式的解。并且本文提出的算法可以在非常少的迭代中经验地收敛。本文提出的strcf具有人工设计的特征,可以实时运行,相比srdcf在准确率上有了显著的提升。此外,strcf与最先进的追踪器[9,15]相比,性能良好。
图2:srdcf和strcf在模型学习方面的比较。srdcf从历史追踪结果中学习到具有多个样本的相关滤波器,并着重于最近的样本。因此,它可能遭遇对最近不准确样本的过拟合问题,并且在有遮挡的情况下导致追踪失败。相比之下,本文提出的strcf使用来自当前帧的样本和学习到的cff_t-1来训练cff_t。利用在线pa,strcf可以在遮挡情况下通过被动更新相关滤波器来成功追踪目标。
表1:otb-2015上具有人工设计特征的追踪器的平均op(%)和追踪速度(fps)的结果。最好的三个结果分别以红色、蓝色和绿色字体显示。
表2:otb-2015上具有深度特征的追踪器的op(%)和速度(fps)结果。最好的三个结果分别以红色、蓝色和绿色字体显示。
图3:otb-2015数据集上与最先进追踪器的「追踪成功率vs重叠阈值」的比较。(a)具有人工设计特征的追踪器。(b)具有深度特征的追踪器。
图4:对6个视频序列(即车辆、狗、女孩2、人物3、熊猫和瞬态)的定性评估。图中分别给出了不同颜色的strcf、eco-hc、bacf、srdcf和srdcfdecon的结果。
论文:learningspatial-temporalregularizedcorrelationfiltersforvisualtracking(学习用于视觉追踪的空间-时间正则化相关滤波器)
论文链接:
投稿或寻求报道:editor@jiqizhixin.com
广告&商务合作:bd@jiqizhixin.com
[广告]赞助链接:舆情监测,互联网舆情首选查舆情:/
四季很好,只要有你,文娱排行榜:/
网络尖刀公众号:mcbang_com数据、技术、运营知安公众号:knowsafe黑客、技术、安全查舆情公众号:chayuqing_com舆情、文娱、品牌