隐式时间建模与可学习对齐技术在视频识别中的应用

Implicit Temporal Modeling with Learnable Alignment for Video
Recognition

解决问题：本篇论文旨在解决如何在视频识别中进行有效的时间建模的问题。现有的空间-时间建模方法在效率和性能之间进行了权衡。本文提出了一种新的隐式可学习对齐方法，旨在最小化时间建模的工作量，同时实现了极高的性能。

关键思路：本文提出的隐式可学习对齐方法通过对每一帧预测一个交互点，来提高交互点周围的特征，从而隐式地对齐两帧，将对齐后的特征汇总到一个单一的标记中，然后在随后的空间自我关注中使用。相较于当前领域的研究，该方法的新意在于通过简单的帧对齐，消除了昂贵或不充分的时间自我关注。

其他亮点：本文的实验结果表明，该方法的性能优越且具有普适性。作者已经在GitHub上公开了代码。值得进一步研究的是，如何将该方法应用于其他视频任务中。

关于作者：本文的主要作者是Shuyuan Tu, Qi Dai, Zuxuan Wu, Zhi-Qi Cheng, Han Hu和Yu-Gang Jiang。他们来自中国科学院自动化研究所、南京大学和腾讯AI Lab。其中，Han Hu曾在2020年发表了题为“Swin Transformer: Hierarchical Vision Transformer using Shifted Windows”的论文，该论文提出了一种新的层次视觉Transformer模型。

相关研究：近期的相关研究包括：“Temporal Pyramid Network for Action Recognition”（作者：Jiawei Wu, Wei Liu, Junjie Yan，机构：Tencent AI Lab、Nanyang Technological University）、“Spatio-Temporal Graph Reasoning for Video Action Recognition”（作者：Yanshao Sun, Ji Zhang, Xinyu Zhou，机构：Shanghai Jiao Tong University）等。

论文摘要：本文提出了一种新颖的隐式可学习对齐（ILA）方法，旨在在最小化时间建模的同时实现极高的性能。具体而言，对于一对帧，每个帧都预测一个交互点，作为相互信息丰富的区域。通过增强交互点周围的特征，两个帧被隐式对齐。对齐的特征然后被汇总成一个单一的令牌，在随后的空间自注意中得到利用。我们的方法允许消除视频中昂贵或不足的时间自注意。基准测试的大量实验表明了我们模块的优越性和普适性。特别是，在Kinetics-400上，所提出的ILA方法的top-1准确率为88.7％，与Swin-L和ViViT-H相比，FLOPs要少得多。代码已经在https://github.com/Francis-Rings/ILA上发布。

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

隐式时间建模与可学习对齐技术在视频识别中的应用

4000亿国产算力航母：芯片巨头合并超算巨头

豆包可以跟你打视频了，陪我看《甄嬛传》还挺懂！难倒一众AI的“看时钟”也没难倒它

AI青年学霸齐聚杭州！这场峰会要选出「未来科学新星」

李飞飞空间智能独角兽开源底层技术！AI生成3D世界在所有设备流畅运行

终于！全球爆火AI视频神器PixVerse发布国内版——拍我AI

大模型首次打破围棋思维「黑盒」，打通科学发现新路径！上海AI Lab发布新一代InternThinker

AI越聪明越不听话！新研究：最强推理模型指令遵循率仅50%

打破思维链推理瓶颈！“软推理”让大模型学会人类抽象能力，token使用量还更少了

AI项链？OpenAI首款硬件爆料，乔布斯爱将操刀，“像iPod Shuffle一样优雅”

微软AI公开折磨微软员工，修Bug唯一贡献是改了PR标题，GitHub评论区成吃瓜现场