开源模型首次物理奥赛夺金!上海AI Lab 235B模型击败GPT5和Grok4

321次阅读
没有评论

开源模型首次物理奥赛夺金!上海AI Lab 235B模型击败GPT5和Grok4

标志着开源模型在物理推理能力上已经达到甚至超越闭源模型的水平

P1团队 投稿
量子位 | 公众号 QbitAI

开源模型首次在国际物理奥林匹克竞赛夺金了。

来自上海AI Lab的P1-235B-A22B取得了21.2分的成绩,成功跨越金牌线。

在覆盖2024-2025年全球13场顶级物理竞赛的HiPhO基准测试中,P1-235B-A22B获12金1银,与谷歌Gemini-2.5-Pro并列奖牌榜第一。

开源模型首次物理奥赛夺金!上海AI Lab 235B模型击败GPT5和Grok4

这个成绩超越了GPT-5的11金以及Grok-4的10金,标志着开源模型在物理推理能力上已经达到甚至超越闭源模型的水平。

同时,团队提出的协同进化多智能体系统PhysicsMinions,在IPhO 2025及HiPhO综合得分上双双问鼎,展现了“模型+系统”框架在应对复杂科学问题的卓越潜力。

物理推理是理解与塑造现实世界的核心能力。国际物理奥林匹克(IPhO)等顶尖赛事,以其对复杂推理和深度物理理解的高标准,成为检验物理智能对现实认知能力的重要标尺。AI在此类竞赛中夺得金牌,不仅是实现通用物理智能道路上的关键里程碑,更表明模型已初步具备应对现实世界中复杂物理问题的潜力。

P1系列:模型、算法、评测集和智能体框架的全链路开源体系

首个物理奥赛基准测试:HiPhO

为了准确评估物理奥赛的表现,研究团队构建了HiPhO(High School Physics Olympiad)基准测试,这是首个专注于最新物理奥赛、采用人类对齐评估的基准。

HiPhO涵盖了2024-2025年最新的13场奥林匹克级别的物理竞赛,包括 IPhO、APhO、EuPhO 等国际和区域赛事。评估时采用官方评分标准,对答案和过程进行细粒度评分,与人类评审严格对齐,确保得分准确。由此,每个模型的考试得分可直接与人类选手以及金银铜牌分数线进行比较。

开源模型首次物理奥赛夺金!上海AI Lab 235B模型击败GPT5和Grok4

△HiPhO 基准测试概览,包含2024-2025年13场物理奥赛,覆盖国际和区域竞赛。

多阶段强化学习训练

研究团队通过高质量的提取和标注流程,构建了包含数千条奥赛级别题目的训练数据集。每条数据均具有完整的上下文信息、可验证答案以及标准解题过程,用于强化学习训练。

P1系列模型采用多阶段强化学习流程进行训练。为了实现稳定高效的训练,团队在每个阶段应用两项关键策略:

  • 上下文窗口扩展:
  • 随着训练的推进,逐步扩展模型最大生成长度,使模型能够探索更长的推理链。这种扩展提高了高复杂度问题的可解性,减少了因截断导致的错误。
  • 通过率过滤:
  • 在训练前,基于通过率统计对数据进行筛选,排除过于简单或过于困难的任务。

基于这种多阶段强化学习策略,P1模型实现了在基座语言模型的基础上长期、持续的性能提升

开源模型首次物理奥赛夺金!上海AI Lab 235B模型击败GPT5和Grok4

协同进化的多智能体系统:PhysicsMinions

为了突破单模型的极限,研究团队开发了PhysicsMinions,这是一个专为物理推理设计协同进化多智能体系统。它由三个交互式模块组成,通过自我验证与反思迭代,实现了物理推理能力的跃升:

  • 视觉模块(Visual Studio)
  •  – 观察和验证多模态问题,提取结构化的视觉信息(在P1模型实验中未使用视觉模块)。
  • 逻辑模块(Logic Studio)
  •  – 生成初始解决方案,并通过自我改进和自我反思逐步改进解答。
  • 审核模块(Review Studio)
  •  – 执行双阶段验证:物理验证器检查物理一致性(比如常数、单位),而通用验证器检查逻辑、推理和计算。

如果任一阶段验证失败,详细的错误报告会被发送回逻辑模块,进行反思修订解答。通过这种协同进化协作,PhysicsMinions 持续提升复杂物理问题的推理质量和鲁棒性。

开源模型首次物理奥赛夺金!上海AI Lab 235B模型击败GPT5和Grok4

△PhysicsMinions 协同进化多智能体系统概览,展示了三个模块之间的交互流程。

评测结果:引领 HiPhO 基准,物理推理能力世界第一

下表总结了在 HiPhO 基准上所有竞赛的平均表现,展示出 P1 系列模型和多智能体系统的出色性能。

开源模型首次物理奥赛夺金!上海AI Lab 235B模型击败GPT5和Grok4

△P1 系列模型在 HiPhO 基准测试上的综合表现,包括与开源和闭源模型的对比。

P1-235B-A22B展现出卓越的物理推理能力,与Gemini-2.5-Pro和Gemini-2.5-Flash-Thinking并列第一,斩获12金1银,金牌数超越GPT-5(11金)、Grok-4(10金)和Claude-4-Sonnet-Thinking(8金)等主流闭源模型。

在IPhO 2025上,P1-235B-A22B得分21.2/30,成为首个也是唯一获得金牌的开源模型。

P1-30B-A3B在HiPhO基准上同样表现出色,获得8金4银1铜,在现有开源模型中排名第三。

仅次于参数规模更大的Qwen3-235B-A22B-Thinking-2507DeepSeek-R1,甚至超越了o4-miniClaude-4-Sonnet等闭源模型,突显了其在中等规模下的强大物理推理能力。

配备PhysicsMinions多智能体系统后,P1模型性能实现跨越式提升。P1-235B-A22B模型在 HiPhO 基准上取得了35.9分的平均得分,而配备 PhysicsMinions 后,其性能大幅提升至38.4分,在所有模型中取得综合第一,超越了Gemini-2.5-Pro(37.7)和 GPT-5(37.4)等顶尖闭源模型。

通专融合,P1模型通用能力持续提升

除了强大的物理推理能力,P1模型在多个领域的能力也得到进一步提升。如下图所示,P1-30B-A3B相比于基座模型Qwen3-30B-A3B-Thinking-2507,在数学、代码、STEM等基准测试上均取得显著优势,证明了物理推理能力的强大泛化性。

开源模型首次物理奥赛夺金!上海AI Lab 235B模型击败GPT5和Grok4

Project Page: https://prime-rl.github.io/P1
Github: https://github.com/PRIME-RL/P1

HiPhO:
论文:https://arxiv.org/abs/2509.07894
数据集:https://huggingface.co/datasets/SciYu/HiPhO
排行榜:https://phyarena.github.io/

PhysicsMinions
https://arxiv.org/abs/2509.24855

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 10 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔 鹭羽 2025-12-24 09:1...
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI C++oding新王登场!MiniMax M2.1拿下多语言编程SOTA 克雷西 2025-12-24 ...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
樱智α·医疗可信平台全新发布,北电数智与中日友好医院联合打造

樱智α·医疗可信平台全新发布,北电数智与中日友好医院联合打造

樱智α·医疗可信平台全新发布,北电数智与中日友好医院联合打造 十三 2026-01-04 14:02:42 来...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...
老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛

老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛

老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛 闻乐 2026-01-06 09:09:0...
悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少

悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少

悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少 闻乐 2026-01-05 19:...