3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%

605次阅读
没有评论

3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%

单卡可处理近万帧视频,超长视频理解新SOTA

Video-XL-Pro团队投稿

量子位 | 公众号 QbitAI

3B模型超越Meta 7B模型,超长视频理解SOTA刷新了!

来自上海交通大学、北京智源研究院、特伦托大学的联合研究团队推出了Video-XL-Pro,实现近一万帧视频的单卡处理,大海捞针准确率超98%。

现有的多模态大模型在超长视频训练和应用中仍存在显著瓶颈:一方面,难以大规模训练超长视频;另一方面,在处理长视频时,仍然面临性能差和效率低的双重挑战。

对此,Video-XL-Pro创新采用“重构式token压缩”技术,并且使用较少的训练数据,在多个基准评测上超越了之前Meta发布的7B模型Apollo-7B,以及同尺寸的知名开源模型Qwen2.5-VL-3B、InternVL2.5-4B等,项目代码,模型,训练数据均已开源

3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%

模型结构

3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%

Video-XL-Pro的核心在于其提出的重构性token压缩技术(ReCoT),该技术通过自监督学习生成全面且紧凑的视频token,显著提升了视频理解的效率和质量。

ReCoT包含两个关键组件:动态token合成器(DTS)和语义引导掩码(SGM)。

DTS通过轻量级的时空注意力块对token进行压缩,有效捕捉视频中的动态运动;而SGM则通过自适应掩码策略,减少冗余视觉token,从而优化重构学习过程。

这些创新设计使得模型在仅需3B参数的情况下,性能超越了许多7B参数的模型。

此外,为了增强模型对超长视频理解能力,模型还引入了查询选择器,使得在输入上下文超过限制时模型能够选择性关注和查询有关的片段。

为了进一步提升训练效率,研究团队还提出了视频数据集剪枝策略。

这些方法通过筛选高质量视频数据,显著降低了计算成本,同时保障模型的性能。

评测基准

Video-XL-Pro选用多个主流视频理解评测基准,对模型进行了全面的评测,对于长视频理解任务,评测了LongVideoBench、MLVU、Video-MME,TempCompass和VNbench

其中MLVU,VideoMME,LongVideoBench集中在评测模型的长视频理解能力。

VNbench则是兼顾长视频与短视频,TempCompass则是评测模型在视频中的时间理解能力。

3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%

如表1所示,Video-XL-Pro在多个主流的长视频评测基准上展现了卓越性能。

在MLVU的Dev、Test,以及TempCompass上,VIdeo-XL-Pro均斩获了第一名,不光超越同参数量的知名开源模型qwen2.5-VL-3B和internVL2.5-4B等,也超越了一众7B模型,包括Meta发布的7B模型Apollo-7B等。

在VideoMME,LongVideoBench,Video-XL-Pro也超越了绝大部分同参数量模型,并达到与7B模型相当的水准。

最后在VNbench上,VIdeo-XL-Pro也取得有竞争力的结果,说明模型在增强长视频理解能力的同时,也能兼顾短视频能力。

值得注意的是,VIdeo-XL-Pro只使用了相对较少的SFT数据(1M),低于Apollo的3.2M,远低于Qwen2.5-VL,InternVL2.5等知名开源模型,进一步说明了方法的有效性。

3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%

Video-XL-Pro还进行了视频「大海捞针」测试来评估其处理超长上下文的能力。

得益于ReCot模块和查询选择器的设计,使得模型可以输入极长的上下文序列,在相同硬件条件下,模型可以以8192帧为输入,达到了近99%的准确率。

时间理解

为了更全面的评估模型性能,我们还选用了经典时间评测基准Charades-STA和最新的长视频时间评测基准V-STaR。

V-STaR注重在极长视频中找出与问题相关的片段,精准回答片段时间范围,现有开源模型在V-STaR中很难取得很好的成绩,即便是Qwen2.5-VL-7B,mIoU得分也仅为11.48。

Video-XL-Pro-3B在最新的V-STaR长视频时间基准测试斩获25.07的mIoU得分,在IoU>0.7时仍能达到15.58的准确率,远上超越一众知名开源模型,包括InternVL2.5-8BQwen2.5-VL-7B,并超越上一代冠军Video-LLaMA3,展现了卓越的长视频时间理解能力,并且在Charades-STA上也有着不俗的表现。

总结

该工作提出了Video-XL-Pro模型,利用自监督学习压缩视觉标记,使用相对少量数据下训练的3B模型就能获得超越大多数7B模型的性能。

Video-XL-Pro在多个主流长视频理解基准评测上表现优异。

模型有望在多个长视频理解的应用场景中展现出广泛的应用价值,成为得力的长视频理解助手。

目前,模型、代码、训练数据均已开源,以促进长视频理解社区的合作和发展。

论文链接:
https://arxiv.org/abs/2503.18478
代码链接:
https://github.com/VectorSpaceLab/Video-XL/tree/main/Video-XL-Pro
模型链接:
https://huggingface.co/MINT-SJTU/Video-XL-Pro-3B
训练数据链接:
https://huggingface.co/datasets/MINT-SJTU/Video-XL-Pro-Training

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 5 月
 1234
567891011
12131415161718
19202122232425
262728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」 鱼羊 2025-12-26 17:04:08 来源:量子位 一个积...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能 鹭羽 2026-01-06 14:28:58 来...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...
老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛

老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛

老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛 闻乐 2026-01-06 09:09:0...