带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架

595次阅读
没有评论

带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架

还公开了其核心的自适应工具使用训练技术V-ToolRL

AI学会使用工具,带图推理就能变得更强?!

港中文、微软联合8家单位推出OpenThinkIMG开源框架,这是一个专为提升AI视觉工具使用和推理能力而设计的一站式平台。

带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架

众所周知,我们人类在解决问题时,常常会借助视觉工具:解几何题时画辅助线,分析图表时用荧光笔标记。这些“动手”操作,极大地增强了我们的认知和推理能力。

因此,一旦将同款“动手操作”能力赋予AI,其推理能力也将大大提升。

不过问题是,虽然现在已经有很多强大的视觉工具(分割、检测、OCR等),但让AI真正学会如何以及何时智能地使用这些工具,却面临巨大挑战:

  • 工具集成难:不同工具接口各异,想把它们整合到一个AI系统里,费时费力。
  • 训练数据缺:教AI用工具,需要大量“示范操作”数据。这种数据怎么来?质量如何保证?
  • 模型适应差:传统方法训练出的AI,往往只会“照本宣科”,遇到新情况就傻眼,缺乏灵活应变和自主学习的能力。

而OpenThinkIMG框架的出现正是为了解决上述问题,与此同时,团队还公开了其核心的自适应工具使用训练技术V-ToolRL

下面具体来看。

OpenThinkIMG:为AI打造的“超级工具箱”

如框架图所示,OpenThinkIMG集工具部署、数据生成、智能体训练于一体。

带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架

其核心特性如下:

第一,模块化视觉工具部署 (Tool Deployment)。

简单来说,它提供标准化的视觉工具接口,无论是已有的成熟工具(如GroundingDINO, SAM, OCR等),还是你自己的新工具,都能轻松接入OpenThinkIMG的“工具箱”。

并且每个工具都可以作为独立服务部署,互不干扰,方便管理和按需扩展。AI模型可以通过框架内的“工具控制器”按需调用。

第二,高效的智能体训练框架 (Training Framework)。

它不仅支持传统的监督微调 (SFT),更集成了团队创新的V-ToolRL (Visual Tool Reinforcement Learning) 算法。

这一算法让AI通过强化学习,在与视觉工具的真实交互中,从错误中学习,自主探索和掌握最佳的工具使用策略。

具体而言,需要先通过SFT进行“理论学习”(冷启动),然后通过V-ToolRL进行“上路实操”,根据任务完成情况获得奖励或惩罚,不断优化策略。

第三,支持高质量训练数据生成 (Scalable Trajectory Generation)。

为了给V-ToolRL提供优质的初始“教材”,OpenThinkIMG内置了一套团队提出的高效、可扩展的视觉工具使用轨迹生成方法。

具体过程分为三步:

  • AI规划师 (GPT-4o) 出马:先让大模型规划出解决问题的初步工具步骤。
  • 工具真实执行与记录:调用OpenThinkIMG中的工具服务,实际执行规划,并记录下每一步的输入输出。
  • 严格质检与筛选:结合AI模型(如Qwen2-VL-72B)、规则和人工审查,层层把关,确保数据质量。

△高质量视觉轨迹数据构建流程

通过OpenThinkIMG的这些核心能力,研究者和开发者可以更专注于模型算法的创新,而不必在工具部署和数据准备上耗费过多精力。

OpenThinkIMG + V-ToolRL:表现超过GPT-4.1

团队在具有挑战性的图表推理任务上,使用OpenThinkIMG框架训练了基于V-ToolRL的智能体。

如图所示,V-ToolRL在ChartGemma测试集上的性能表现(基于OpenThinkIMG训练)如下:

1、大幅超越SFT:基于一个2B的Qwen2-VL,经过V-ToolRL训练后,准确率比单纯SFT提升了28.83个百分点;

2、碾压同类开源模型:V-ToolRL的表现平均超过了如Taco、CogCom等基于监督学习的工具使用基线12.7个百分点,而且团队的模型参数量更小;

3、媲美顶尖模型:V-ToolRL的表现超过GPT-4.1,同时和Gemini达到持平的效果。

带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架

结果充分证明了OpenThinkIMG框架的强大支撑能力,以及V-ToolRL在学习自适应工具调用策略上的优越性。

那么,V-ToolRL是如何在OpenThinkIMG中学习的呢?

通过OpenThinkIMG的训练环境,团队观察到V-ToolRL智能体展现出以下学习特性:(a) 工具调用更高效 (b) 推理更详尽 (c) V-ToolRL 学习更快更好。

带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架
带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架
带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架

具体而言,随着训练的进行,模型平均调用的工具次数显著下降,说明它学会了“好钢用在刀刃上”,只在必要时才使用工具。

而且模型生成的答案(包括思考过程)长度增加了,表明它能够进行更详细、更深入的推理。

最后,V-ToolRL(集成了视觉工具的反馈)相比纯文本的强化学习,学习速度更快,最终效果也更好,证明了“眼见为实”的重要性。

下图展示了V-ToolRL在具体问题上的表现。面对复杂的图表,V-ToolRL能够:

  • 饼图分析 (上):通过ZoomInSubfigure放大关键区域,再用OCR精准读取数值,最终正确计算出差异,而直接解读的模型则容易出错。
  • 折线图趋势 (下):利用Point定位数据点,DrawVerticalLineByX辅助比较,准确找出趋势相同的类别。

△V-ToolRL (上侧工具辅助) vs GPT-4.1 (下侧直接解读)

这些案例生动地展示了V-ToolRL如何通过结构化的工具调用,实现比直接视觉解读更准确、更可解释的推理。

小结一下,OpenThinkIMG框架的核心贡献在于:

1、一个开放、强大的工具部署与训练平台:解决了工具集成和智能体训练的难题。

2、内置高效数据生成方法:为模型训练提供高质量“燃料”。

3、V-ToolRL作为核心训练算法:使AI能够真正学会自主、智能地使用视觉工具。

团队表示,OpenThinkIMG将为开发能够真正“用图像思考”的下一代AI智能体提供坚实的基础设施。

未来,他们将继续扩展OpenThinkIMG支持的工具和模型,探索更复杂的任务场景,并期待与社区共同推动这一激动人心的领域向前发展。

论文第一作者苏肇辰为苏州大学三年级研究生,香港科技大学准博士生,在NeurIPS、ACL等国际顶级会议上发表多篇研究成果。项目通讯作者为港中文成宇教授

技术报告:
https://arxiv.org/pdf/2505.08617
GitHub仓库:
https://github.com/zhaochen0110/OpenThinkIMG
数据集和模型:
https://huggingface.co/collections/Warrieryes/openthinkimg-68244a63e97a24d9b7ffcde9

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 5 月
 1234
567891011
12131415161718
19202122232425
262728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」 鱼羊 2025-12-26 17:04:08 来源:量子位 一个积...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能 鹭羽 2026-01-06 14:28:58 来...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...
老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛

老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛

老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛 闻乐 2026-01-06 09:09:0...