Llama都在用的RoPE有了视频版,长视频理解/检索绝佳拍档

752次阅读
没有评论

Llama都在用的RoPE有了视频版,长视频理解/检索绝佳拍档

复旦大学、上海AI Lab等带来

VideoRoPE团队 投稿

量子位 | 公众号 QbitAI

Llama都在用的RoPE(旋转位置嵌入)被扩展到视频领域,长视频理解和检索更强了。

复旦大学、上海AI实验室等提出VideoRoPE,并确定了将RoPE有效应用于视频所需的四个关键特性。

在长视频检索、视频理解和视频幻觉等各种下游任务中,VideoRoPE始终优于先前的RoPE变体。

用三维结构保留时空关系

RoPE是一种能够将相对位置信息依赖集成到self-attention中并提升transformer架构性能的位置编码方式。

RoPE及其变体因其长上下文处理能力而被广泛采用,但将一维RoPE扩展到具有复杂时空结构的视频领域仍然是一个悬而未决的挑战。

作为分析的一部分,这项工作引入了一个具有挑战性的V-NIAH-D(带干扰项的视觉大海捞针)任务,该任务在V-NIAH任务的基础上增加了周期性干扰项。

V-NIAH-D任务表明,先前缺乏适当时间维度分配的RoPE变体很容易被干扰项误导。基于分析,作者提出了VideoRoPE,它具有三维结构,旨在保留时空关系。

VideoRoPE的特点包括低频时间分配以减轻周期性碰撞、对角布局以保持空间对称性,以及可调整的时间间隔以解耦时间和空间索引。

左图:为了展示频率分配的重要性,基于VIAH(a),作者提出了一个更具挑战性的V-NIAH-D任务(b),其中插入了相似图像作为干扰项。

右图:与M-RoPE相比,VideoRoPE在检索中更具鲁棒性,并且不容易受到干扰项的影响。

上图:M-RoPE的时间维度局限于局部信息,导致对角线布局。

下图:VideoRoPE有效利用时间维度进行检索。

M-RoPE在定位目标图像上有效,但在多选问题中表现不佳,因为它主要通过垂直位置编码来定位图像,而非时间特征,导致时间维度未能捕捉长距离依赖关系,关注局部信息。相比之下,空间维度则捕捉长距离语义信息,导致M-RoPE在频率分配设计上表现较差。
VideoRoPE设计

作者团队提出了VideoRoPE,一种视频位置嵌入策略,优先考虑时间建模,通过低频时间分配(LTA)减少振荡并确保鲁棒性。它采用对角线布局(DL)以保持空间对称性,并引入可调时间间隔(ATS)来控制时间间隔。VideoRoPE有效地建模了时空信息,从而实现了鲁棒的视频位置表示。

1、低频时间分配(LTA):

考虑一个基于RoPE的LLM,头部维度为128,对应64个旋转角度θn,分布在不同维度上。每个图示中,用平行的蓝色平面表示cos(θnt)在3维上的表现。

(a)对于M-RoPE,时间依赖性由前16个高频旋转角度建模,导致振荡和位置信息失真。低维度间隔较短,振荡周期性使得远距离位置可能具有相似信息,类似哈希碰撞(如红色平面所示),容易引发干扰,误导模型。

(b)相比之下,VideoRoPE通过最后16个旋转角度建模时间依赖性,具有更宽的单调间隔。时间建模不再受振荡影响,显著抑制了干扰项的误导效应。
2、对角线布局(DL):

原始1D RoPE(Su et al., 2024)未包含空间建模。M-RoPE(Wang et al., 2024b)虽然采用3D结构,但引入了不同帧间视觉标记索引的差异。

相比之下,VideoRoPE实现了平衡,保留了原始RoPE一致的索引增长模式,并引入了空间建模。优点包括:1)保留视觉标记的相对位置,避免文本标记过于接近角落;2)保持原始RoPE编码形式,相邻帧的空间位置信息增量与文本标记增量一致。

3、可调时间间隔(ATS):

为了缩放时间索引,作者团队引入缩放因子δ来对齐视觉和文本标记之间的时间信息。假设τ为标记索引,起始文本(0≤τ<Ts)的时间、水平和垂直索引为原始标记索引τ。对于视频输入(Ts≤τ<Ts+Tv),τ−Ts表示当前帧相对于视频开始的索引,通过δ缩放控制时间间距。

对于结束文本(Ts+Tv≤τ<Ts+Tv+Te),时间、水平和垂直索引保持不变,形成线性进展。根据可调节的时间间距设计,视频位置编码(VideoRoPE)中τ-th文本标记或(τ,w,h)-th视觉标记的位置信息(t,x,y)如式(7)所示。

其中,w和h分别表示视觉块在帧中的水平和垂直索引。

相邻文本标记的位置信息嵌入对于Vanilla RoPE(顶部行)、相邻帧中对应的视觉标记对于M-RoPE(中间行)以及我们设计的带有交错水平垂直排布和时间维度放后面设计的VideoRoPE(底部行)。
优于其他RoPE变体

长视频检索任务:

作者团队展示了VideoRoPE与其他RoPE变体在V-NIAH和V-NIAH-D上的性能。V-NIAH-D比V-NIAH更具挑战性。Vanilla RoPE和TAD-RoPE在视觉训练上下文外具备一定外推能力,但超出极限后失效。相比之下,VideoRoPE和M-RoPE在测试上下文内表现优越,且VideoRoPE始终优于M-RoPE,展现出更强鲁棒性。

长视频理解任务:

如表所示,作者团队在三个长视频理解基准上比较了VideoRoPE与现有RoPE变体(Vanilla RoPE、TAD-RoPE和M-RoPE)。VideoRoPE在这些基准上优于所有基线方法,展示了其鲁棒性和适应性。在LongVideoBench、MLVU和Video-MME上,VideoRoPE在64k上下文长度下分别比M-RoPE提高了2.91、4.46和1.66分,突显了其在捕捉长距离依赖关系和处理具有挑战性的视频任务中的卓越能力。

视频幻觉任务:

在VideoHallucer基准测试中,作者团队的VideoRoPE显著优于现有RoPE方法。特别是在时间幻觉任务中,VideoRoPE提升了29.5%,展示了更强的时间依赖关系捕捉能力,适合处理动态视频序列。在空间方面,VideoRoPE在对象-关系幻觉任务中提升了18.0%,突显了其辨识复杂空间交互的能力。这些结果强调了VideoRoPE在视频幻觉问题上的鲁棒性和实际应用潜力。

总结

本文确定了有效位置编码的四个关键标准:2D/3D结构、频率分配、空间对称性和时间索引缩放。通过V-NIAH-D任务,作者展示了先前RoPE变体因缺乏适当的时间分配而易受干扰。

因此,提出了VideoRoPE,采用3D结构保持时空一致性,低频时间分配减少振荡,对角布局实现空间对称性,并引入可调节时间间距。VideoRoPE在长视频检索、视频理解和视频幻觉任务中优于其他RoPE变体。

Paper:https://arxiv.org/pdf/2502.05173
Project Page:https://wiselnn570.github.io/VideoRoPE/
Code:https://github.com/Wiselnn570/VideoRoPE/

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 2 月
 12
3456789
10111213141516
17181920212223
2425262728  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔 鹭羽 2025-12-24 09:1...
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI C++oding新王登场!MiniMax M2.1拿下多语言编程SOTA 克雷西 2025-12-24 ...
智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify

智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify

智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify 鹭羽 2025-12-23 1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
易烊千玺的华为绿手机,真的AI了

易烊千玺的华为绿手机,真的AI了

Failed to fetch content Read More 
AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背 鹭羽 2025-12-23 14...
长城首个VLA车型发布,魏建军回应「赌上姓氏造车」

长城首个VLA车型发布,魏建军回应「赌上姓氏造车」

长城首个VLA车型发布,魏建军回应「赌上姓氏造车」 贾浩楠 2025-12-23 13:57:25 来源:量子...