视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 | 论文代码开源

487次阅读
没有评论

视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 | 论文代码开源

ARC Lab + 香港城市大学

金磊 整理自 凹非寺

量子位 | 公众号 QbitAI

一个新的Benchmark,竟让大模型在复杂视频推理这事儿上统统不及格!

这就是腾讯ARC Lab和香港城市大学最新推出的Video-Holmes——

如其名,它可以说是视频推理界的“福尔摩斯测试”,通过让多模态大模型参与“推理杀人凶手”, “解析作案意图”等高难度的推理任务,以展现他们复杂视频推理能力的边界。

视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 | 论文代码开源

而且Video-Holmes可以说是规避了现在业内已有的Benchmark痛点,即视频源和问题都偏简单,没法反映推理模型和非推理模型之间的差距。

举个例子。

在这个例子中,为了寻找男人真正的死因,模型需要主动思考需要关注的视觉信息,并通过逻辑关联分散在不同视频片段中的多个相关线索进行推理,最后发现男人的死因居然是:“过度使用超能力”?!

视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 | 论文代码开源

结果啊,测试的成绩可谓是大跌眼镜。

所有大模型,在各项测试中全部不及格

(SR代表社会推理;IMC意指意图与动机链;TCI表示时间因果推理;TA时间线分析;MHR即多模态提示推理;PAR为物理异常推理;CTI代表核心主题推理。)

视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 | 论文代码开源

值得一提的是,这个Benchmark的“一键测评懒人包”,目前已经上线到了GitHub和HuggingFace,有做视频推理相关的小伙伴,可以去挑战一下了(地址见文末)。

让大模型全军覆没的新Benchmark

正如刚才提到的,现有视频推理基准(如 VCR-Bench、MVBench 等)主要评估模型的视觉感知和接地能力。

大多数问题也是基于显式提示或孤立视觉线索(如 “女人穿了什么”),无法模拟人类在现实中主动搜索、整合、分析多线索的复杂推理过程。

即使是较为前沿的模型,在这些基准上的提升也非常有限(如从 68.3% 到 69.4%),难以验证模型的真实推理能力。

因此,团队收集并人工标注了270部1-5分钟的“推理短电影,并设计7种高推理要求的单选题,强迫模型提取,串联多个散布在电影中的关键信息来推导出最终的真相。

值得注意的是,设计的问题是由DeepSeek来生成,并且也是由DeepSeek来评估的响应。

视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 | 论文代码开源

至于问题的类型(上文我们提及的几大类型),具体的“打开方式”如下:

视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 | 论文代码开源

再深入到具体问题的回答,各个大模型回答结果如下(以SR和IMC为例):

视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 | 论文代码开源
视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 | 论文代码开源

测试结果显示,即使强大入Gemini-2.5-Pro的闭源模型,也仅达到了45%的准确率。

并且Video-Holmes能够反应推理模型和对应非推理版本之间的Gap——

SEED-Bench-R1 比 Qwen2.5-VL-7B提升了5个点,而Gemini-2.0-Thinking比Gemini-2.0提升了整整12个点!

除此之外,团队进一步还分析了模型的推理过程,结果显示,现有模型整体上能够正确感知视觉信息,但它们普遍在线索串联信息(推理能力)上欠缺,以及容易遗漏关键的视觉信息。

注:Video-Holmes的标注、构建、测试、推理过程分析的资料和代码,以及论文全部都开源啦(见文末)~

如何“食用”?

大家若是想下载Video-Holmes,可以运行如下代码:

git clone 
https://github.com/TencentARC/Video-Holmes.git
cd Video-Holmes
pip install huggingface_hub
python download.py —hf_token YOUR_HUGGINGFACE_ACCESS_TOKEN
unzip Benchmark/videos.zip -d Benchmark/
unzip Benchmark/annotations.zip -d Benchmark/

团队还为基线模型提供了一体化的评估代码:

python evaluate.pymodel_name YOUR_MODEL_NAMEmodel_path YOUR_MODEL_PATH (optional)

以及可支持的大模型名单如下:

视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 | 论文代码开源

还可以通过指定——model_path参数或实现以下函数来定制模型:prepare_your_model(第388行)和generate_your_model(第439行)。

推理过程分析

首先需要应用DeepSeek API密钥,然后可以运行以下命令来分析模型的推理过程:

python evaluate_reasoning.pymodel_name YOUR_MODEL_NAMEapi_key YOUR_API_KEY

生成你的“福尔摩斯测试”

要为带有注释的视频生成问题,你可以运行以下命令:

cd Pipeline
python generate_questions.py —api_key YOUR_API_KEY

那么你觉得这个新Benchmark如何?感兴趣的话就快去试试吧~

HF Daily Paper:
https://huggingface.co/papers/2505.21374

Homepage:
https://video-holmes.github.io/Page.github.io/

Code:
https://github.com/TencentARC/Video-Holmes

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 5 月
 1234
567891011
12131415161718
19202122232425
262728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...