带图推理碾压同类开源模型！港中文微软等开源OpenThinkIMG框架

一水
2025-05-17
12:12:30

来源：量子位

还公开了其核心的自适应工具使用训练技术V-ToolRL

教AI学会使用工具，带图推理就能变得更强？！

港中文、微软联合8家单位推出OpenThinkIMG开源框架，这是一个专为提升AI视觉工具使用和推理能力而设计的一站式平台。

众所周知，我们人类在解决问题时，常常会借助视觉工具：解几何题时画辅助线，分析图表时用荧光笔标记。这些“动手”操作，极大地增强了我们的认知和推理能力。

因此，一旦将同款“动手操作”能力赋予AI，其推理能力也将大大提升。

不过问题是，虽然现在已经有很多强大的视觉工具（分割、检测、OCR等），但让AI真正学会如何以及何时智能地使用这些工具，却面临巨大挑战：

工具集成难：不同工具接口各异，想把它们整合到一个AI系统里，费时费力。
训练数据缺：教AI用工具，需要大量“示范操作”数据。这种数据怎么来？质量如何保证？
模型适应差：传统方法训练出的AI，往往只会“照本宣科”，遇到新情况就傻眼，缺乏灵活应变和自主学习的能力。

而OpenThinkIMG框架的出现正是为了解决上述问题，与此同时，团队还公开了其核心的自适应工具使用训练技术V-ToolRL。

下面具体来看。

OpenThinkIMG：为AI打造的“超级工具箱”

如框架图所示，OpenThinkIMG集工具部署、数据生成、智能体训练于一体。

其核心特性如下：

第一，模块化视觉工具部署 (Tool Deployment)。

简单来说，它提供标准化的视觉工具接口，无论是已有的成熟工具（如GroundingDINO, SAM, OCR等），还是你自己的新工具，都能轻松接入OpenThinkIMG的“工具箱”。

并且每个工具都可以作为独立服务部署，互不干扰，方便管理和按需扩展。AI模型可以通过框架内的“工具控制器”按需调用。

第二，高效的智能体训练框架 (Training Framework)。

它不仅支持传统的监督微调 (SFT)，更集成了团队创新的V-ToolRL (Visual Tool Reinforcement Learning) 算法。

这一算法让AI通过强化学习，在与视觉工具的真实交互中，从错误中学习，自主探索和掌握最佳的工具使用策略。

具体而言，需要先通过SFT进行“理论学习”（冷启动），然后通过V-ToolRL进行“上路实操”，根据任务完成情况获得奖励或惩罚，不断优化策略。

第三，支持高质量训练数据生成 (Scalable Trajectory Generation)。

为了给V-ToolRL提供优质的初始“教材”，OpenThinkIMG内置了一套团队提出的高效、可扩展的视觉工具使用轨迹生成方法。

具体过程分为三步：

AI规划师 (GPT-4o) 出马：先让大模型规划出解决问题的初步工具步骤。
工具真实执行与记录：调用OpenThinkIMG中的工具服务，实际执行规划，并记录下每一步的输入输出。
严格质检与筛选：结合AI模型（如Qwen2-VL-72B）、规则和人工审查，层层把关，确保数据质量。

△高质量视觉轨迹数据构建流程

通过OpenThinkIMG的这些核心能力，研究者和开发者可以更专注于模型算法的创新，而不必在工具部署和数据准备上耗费过多精力。

OpenThinkIMG + V-ToolRL：表现超过GPT-4.1

团队在具有挑战性的图表推理任务上，使用OpenThinkIMG框架训练了基于V-ToolRL的智能体。

如图所示，V-ToolRL在ChartGemma测试集上的性能表现（基于OpenThinkIMG训练）如下：

1、大幅超越SFT：基于一个2B的Qwen2-VL，经过V-ToolRL训练后，准确率比单纯SFT提升了28.83个百分点；

2、碾压同类开源模型：V-ToolRL的表现平均超过了如Taco、CogCom等基于监督学习的工具使用基线12.7个百分点，而且团队的模型参数量更小；

3、媲美顶尖模型：V-ToolRL的表现超过GPT-4.1，同时和Gemini达到持平的效果。

结果充分证明了OpenThinkIMG框架的强大支撑能力，以及V-ToolRL在学习自适应工具调用策略上的优越性。

那么，V-ToolRL是如何在OpenThinkIMG中学习的呢？

通过OpenThinkIMG的训练环境，团队观察到V-ToolRL智能体展现出以下学习特性：(a) 工具调用更高效 (b) 推理更详尽 (c) V-ToolRL 学习更快更好。

具体而言，随着训练的进行，模型平均调用的工具次数显著下降，说明它学会了“好钢用在刀刃上”，只在必要时才使用工具。

而且模型生成的答案（包括思考过程）长度增加了，表明它能够进行更详细、更深入的推理。

最后，V-ToolRL（集成了视觉工具的反馈）相比纯文本的强化学习，学习速度更快，最终效果也更好，证明了“眼见为实”的重要性。

下图展示了V-ToolRL在具体问题上的表现。面对复杂的图表，V-ToolRL能够：

饼图分析 (上)：通过ZoomInSubfigure放大关键区域，再用OCR精准读取数值，最终正确计算出差异，而直接解读的模型则容易出错。
折线图趋势 (下)：利用Point定位数据点，DrawVerticalLineByX辅助比较，准确找出趋势相同的类别。

△V-ToolRL (上侧工具辅助) vs GPT-4.1 (下侧直接解读)

这些案例生动地展示了V-ToolRL如何通过结构化的工具调用，实现比直接视觉解读更准确、更可解释的推理。

小结一下，OpenThinkIMG框架的核心贡献在于：

1、一个开放、强大的工具部署与训练平台：解决了工具集成和智能体训练的难题。

2、内置高效数据生成方法：为模型训练提供高质量“燃料”。

3、V-ToolRL作为核心训练算法：使AI能够真正学会自主、智能地使用视觉工具。

团队表示，OpenThinkIMG将为开发能够真正“用图像思考”的下一代AI智能体提供坚实的基础设施。

未来，他们将继续扩展OpenThinkIMG支持的工具和模型，探索更复杂的任务场景，并期待与社区共同推动这一激动人心的领域向前发展。

论文第一作者苏肇辰为苏州大学三年级研究生，香港科技大学准博士生，在NeurIPS、ACL等国际顶级会议上发表多篇研究成果。项目通讯作者为港中文成宇教授。

技术报告：
https://arxiv.org/pdf/2505.08617
GitHub仓库：
https://github.com/zhaochen0110/OpenThinkIMG
数据集和模型：
https://huggingface.co/collections/Warrieryes/openthinkimg-68244a63e97a24d9b7ffcde9

2025 年 5 月
一	二	三	四	五	六	日
	1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

带图推理碾压同类开源模型！港中文微软等开源OpenThinkIMG框架

带图推理碾压同类开源模型！港中文微软等开源OpenThinkIMG框架

OpenThinkIMG：为AI打造的“超级工具箱”

△高质量视觉轨迹数据构建流程

OpenThinkIMG + V-ToolRL：表现超过GPT-4.1

△V-ToolRL (上侧工具辅助) vs GPT-4.1 (下侧直接解读)

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定