SFFAI 132 | 目标跟踪专题《张志鹏：视频目标跟踪算法研究进展》

SFFAI论坛网站已开放注册，详情点击查看：https://bbs.sffai.com/d/312

关注公众号：【人工智能前沿讲习】，回复【SFFAI132】获取讲者PPT资料，入交流群，推荐论文下载。

本期分享我们邀请到了来自中国科学院自动化研究所的张志鹏同学，依托于他近期的工作，对视频目标跟踪研究的进展做一个简单概述。主要包括以下三个方面：多模态目标跟踪的初步探索，孪生跟踪框架中的匹配机制研究和单目标跟踪与多目标跟踪的框架联动。

讲者介绍

张志鹏：中科院自动化研究所模式识别国家重点实验直博，主要研究方向为视频目标跟踪，目前已在CVPR, ICCV, ECCV, AAAI等会议发表多篇论文。

报告题目：视频目标跟踪算法研究进展

报告摘要：在我们CVPR2021的工作TNL2K[1]中，我们第一次在目标跟踪中引入视觉和语言的双模态跟踪模式。在我们ICCV2021工作AutoMatch[2]中，我们对主流的孪生跟踪框架中的核心匹配机制进行了探索，指出标志性的互相关算子并不是最适合跟踪的匹配模式。我们将匹配问题定义为特征融合并引入多个融合算子，通过搜索的方式得到适合跟踪中分类和回归子任务的匹配网络。在我们的AAAI2022工作OMC[3]（CSTrackV2）中，我们将SOT中互相关匹配的思想以最简洁的形式引入MOT任务，将JDE[4]形式的MOT框架推到了SOTA。

分享亮点：

基于我们提出的TNL2K[1] 引出目标跟踪的新任务，畅想未来多模态跟踪中的可能范式；
讨论近年来目标跟踪中匹配机制的研究进展，我们提出的AutoMatch[2]为未来跟踪中匹配算子的研究提供更多可能性；
基于我们提出的OMC[3]探讨SOT和MOT之间思想的相互碰撞。

[1] Wang, Xiao, et al. “Towards More Flexibleand Accurate Object Tracking with Natural Language: Algorithms andBenchmark.” Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition. 2021.
[2] Zhang, Zhipeng,et al. “Learn to match: Automatic matching network design for visualtracking.” Proceedings of the IEEE/CVF International Conference onComputer Vision. 2021.
[3] Liang, Chao,et al. “One More Check: Making” Fake Background” Be TrackedAgain.” arXiv preprint arXiv:2104.09441 (2021).

论文推荐

Towards More Flexible and Accurate Object Tracking with Natural Language Algorithms and Benchmark
推荐理由：不卷跟踪算法的性能，通过引入语言这种模态，探讨跟踪问题是否可以有新的血液，也为广大被卷的苦不堪言的跟踪方向研究者提供一种新的思考方向。
Learn to Match Automatic Matching Network Design for Visual Tracking
推荐理由：系统性的探讨了跟踪匹配问题的解法，通过搜索的方式得到适用于不同子任务的匹配网络，为未来的专业型跟踪（如无人机，夜晚等场景）搜索最有效跟踪器提供了一种思路。
Fully-Convolutional Siamese Networks for Object Tracking
推荐理由：近年来目标跟踪中最经典的论文，单目标跟踪入坑必读之作。将目标跟踪定义为匹配问题并用深度学习以最简洁的形式求解，大道至简。
ATOM Accurate Tracking by Overlap Maximization
推荐理由：深度学习之后基于相关滤波在线学习跟踪范式的一个里程碑，马丁大佬的又一篇代表作。
Siam R-CNN Visual Tracking by Re-Detection
推荐理由：第一篇将多目标跟踪思想用于解单目标跟踪问题，为单目标跟踪的发展引入了新的模式。
SwinTrack A Simple and Strong Baseline for Transformer Tracking
推荐理由：新发的基于Transformer的跟踪器，告诉读者以最简单的方式直接替换backbone并略作改动便可以刷新跟踪的最好性能。相对于到处凑novelty的方式，这种简单粗暴的方式有时候反而更显得真诚。

参考资料

https://www.bilibili.com/video/BV1GF411t73Z/