Implicit Temporal Modeling with Learnable Alignment for Video
Recognition
解决问题:本篇论文旨在解决如何在视频识别中进行有效的时间建模的问题。现有的空间-时间建模方法在效率和性能之间进行了权衡。本文提出了一种新的隐式可学习对齐方法,旨在最小化时间建模的工作量,同时实现了极高的性能。
关键思路:本文提出的隐式可学习对齐方法通过对每一帧预测一个交互点,来提高交互点周围的特征,从而隐式地对齐两帧,将对齐后的特征汇总到一个单一的标记中,然后在随后的空间自我关注中使用。相较于当前领域的研究,该方法的新意在于通过简单的帧对齐,消除了昂贵或不充分的时间自我关注。
其他亮点:本文的实验结果表明,该方法的性能优越且具有普适性。作者已经在GitHub上公开了代码。值得进一步研究的是,如何将该方法应用于其他视频任务中。
关于作者:本文的主要作者是Shuyuan Tu, Qi Dai, Zuxuan Wu, Zhi-Qi Cheng, Han Hu和Yu-Gang Jiang。他们来自中国科学院自动化研究所、南京大学和腾讯AI Lab。其中,Han Hu曾在2020年发表了题为“Swin Transformer: Hierarchical Vision Transformer using Shifted Windows”的论文,该论文提出了一种新的层次视觉Transformer模型。
相关研究:近期的相关研究包括:“Temporal Pyramid Network for Action Recognition”(作者:Jiawei Wu, Wei Liu, Junjie Yan,机构:Tencent AI Lab、Nanyang Technological University)、“Spatio-Temporal Graph Reasoning for Video Action Recognition”(作者:Yanshao Sun, Ji Zhang, Xinyu Zhou,机构:Shanghai Jiao Tong University)等。
论文摘要:本文提出了一种新颖的隐式可学习对齐(ILA)方法,旨在在最小化时间建模的同时实现极高的性能。具体而言,对于一对帧,每个帧都预测一个交互点,作为相互信息丰富的区域。通过增强交互点周围的特征,两个帧被隐式对齐。对齐的特征然后被汇总成一个单一的令牌,在随后的空间自注意中得到利用。我们的方法允许消除视频中昂贵或不足的时间自注意。基准测试的大量实验表明了我们模块的优越性和普适性。特别是,在Kinetics-400上,所提出的ILA方法的top-1准确率为88.7%,与Swin-L和ViViT-H相比,FLOPs要少得多。代码已经在https://github.com/Francis-Rings/ILA上发布。