隐式时间建模与可学习对齐技术在视频识别中的应用

1,607次阅读
没有评论

Implicit Temporal Modeling with Learnable Alignment for Video
Recognition

解决问题:本篇论文旨在解决如何在视频识别中进行有效的时间建模的问题。现有的空间-时间建模方法在效率和性能之间进行了权衡。本文提出了一种新的隐式可学习对齐方法,旨在最小化时间建模的工作量,同时实现了极高的性能。

关键思路:本文提出的隐式可学习对齐方法通过对每一帧预测一个交互点,来提高交互点周围的特征,从而隐式地对齐两帧,将对齐后的特征汇总到一个单一的标记中,然后在随后的空间自我关注中使用。相较于当前领域的研究,该方法的新意在于通过简单的帧对齐,消除了昂贵或不充分的时间自我关注。

其他亮点:本文的实验结果表明,该方法的性能优越且具有普适性。作者已经在GitHub上公开了代码。值得进一步研究的是,如何将该方法应用于其他视频任务中。

关于作者:本文的主要作者是Shuyuan Tu, Qi Dai, Zuxuan Wu, Zhi-Qi Cheng, Han Hu和Yu-Gang Jiang。他们来自中国科学院自动化研究所、南京大学和腾讯AI Lab。其中,Han Hu曾在2020年发表了题为“Swin Transformer: Hierarchical Vision Transformer using Shifted Windows”的论文,该论文提出了一种新的层次视觉Transformer模型。

相关研究:近期的相关研究包括:“Temporal Pyramid Network for Action Recognition”(作者:Jiawei Wu, Wei Liu, Junjie Yan,机构:Tencent AI Lab、Nanyang Technological University)、“Spatio-Temporal Graph Reasoning for Video Action Recognition”(作者:Yanshao Sun, Ji Zhang, Xinyu Zhou,机构:Shanghai Jiao Tong University)等。

论文摘要:本文提出了一种新颖的隐式可学习对齐(ILA)方法,旨在在最小化时间建模的同时实现极高的性能。具体而言,对于一对帧,每个帧都预测一个交互点,作为相互信息丰富的区域。通过增强交互点周围的特征,两个帧被隐式对齐。对齐的特征然后被汇总成一个单一的令牌,在随后的空间自注意中得到利用。我们的方法允许消除视频中昂贵或不足的时间自注意。基准测试的大量实验表明了我们模块的优越性和普适性。特别是,在Kinetics-400上,所提出的ILA方法的top-1准确率为88.7%,与Swin-L和ViViT-H相比,FLOPs要少得多。代码已经在https://github.com/Francis-Rings/ILA上发布。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 4 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...