强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!

487次阅读
没有评论

强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT

强化学习+任意一张牌,往往就是王炸。

henry 发自 凹非寺

量子位 | 公众号 QbitAI

强化学习+任意一张牌,往往就是王炸。

专注于LLM+RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。

只需一个MCP Server的地址,agent就能自动发现工具、生成任务,通过强化学习在闭环反馈中摸索出最优调用策略。

在实测中,MCP·RL更是在2/3的benchmark上达到或超过SOTA性能,效果直接拉满。

强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!

不套公式,在“做中学”,这就是专属RL的power!

强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!

MCP·RL的做中学

想明白MCP·RL怎么个“做中学”法,咱们有必要简单过一下传统MCP的流程:

举个例子,假如你想让agent帮自己读邮件、分类、写回复,那么你就得提前设置好整个工作流:

准备邮件数据、注册工具、写prompt规划执行顺序。

此外,你还得设置回退逻辑,以防中途崩掉。

而这只是一个发邮件的例子,功能一多,配置量指数级上升。

最关键的是——你得知道怎么拆任务、调工具、写逻辑。

换句话说,agent就是在做你给他出的完形填空。

而你,我的朋友,要填除了空以外的所有东西。

MCP·RL的提出就是为了解决这一问题。

你只需提供MCP Server地址,不用配置工具、不用写prompt、不用人工标注。

模型就能自己发现工具、自己设计任务、自己实战训练,边跑边学。

强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!

简单来说,MCP·RL的训练流程分四步:

  • 发现工具:自动连接MCP Server,获取所有可用工具和参数。 
  • 生成任务:根据工具信息自己“脑补”出一批使用场景,作为训练任务(数据)。 
  • 实战训练:通过跑任务直接从经验中学习,搭配RULER评估策略,调参优化。 
  • 测试泛化:用新任务检验策略泛化性,让agent越用越顺手。

总结下来就是:任务场景是什么?AI找;工具怎么用?AI学;流程怎么拆?AI想;效果好不好?AI试。

一位网友精辟的点出了这一转变:

我们曾借助MCP让AI调用工具,而现在是AI反过来利用MCP。

强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!

那么,它的效果如何呢?

正如我们开头提到的,MCP·RL在2/3的基准测试中达到SOTA。

强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!

而在具体的部署层面,MCP·RL无需标注数据,适用于任何Server,无需定制MCP接口,开箱即用。

One more thing

MCP·RL是科技公司OpenPipe基于强化学习的智能体训练系统(Agent Reinforcement Trainer,ART)的最新项目。

ART是一个开源强化学习框架,其核心思想是让LLM从经验中学习,从而提高agent的可靠性,ART可以将GRPO集成到任何Python应用中。

在此前的实测中,ART(Agent Reinforcement Trainer)对Qwen 2.5-14B进行强化训练,其在一项电子邮件检索任务中表现优于o3,实现了SOTA(state-of-the-art)。

强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!

参考链接:
[1]https://x.com/corbtt/status/1953171838382817625
[2]https://github.com/OpenPipe/ART?tab=readme-ov-file#-notebooks

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 8 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...