TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview

803次阅读
没有评论

TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview

实测在此

近日,中国电信人工智能研究院(TeleAI)“复杂推理大模型” TeleAI-t1-preview 正式发布,即将上线天翼 AI 开放平台。TeleAI-t1-preview 使用了强化学习训练方法,通过引入探索、反思等思考范式,大幅提升模型在数学推导、逻辑推理等复杂问题的准确性。

早在 1500 多年前,数学家祖冲之就曾在《辩戴法兴难新历》中指出,复杂事物的运行规律并非超自然现象,而是可以通过实际观测、数据推理而严谨求得。

数学知识的系统性和相互关联性,以及通过推理找到问题根源,是几千年来数学发展的母题。大模型的创新也正在不断与之靠近,用严密的思维链路,摆脱幻觉的怪圈。

评分超 o1-preview,达竞赛级数学表现

在美国数学竞赛 AIME 2024 、MATH500 两项权威数学基准评测中,TeleAI-t1-preview 分别以 60 和 93.8 分的成绩,大幅超越 OpenAI o1-preview、GPT-4o 等标杆模型。在研究生级别问答测试 GPQA Diamond 中,TeleAI-t1-preview 得分超过 GPT-4o,并比肩 Claude 3.5 Sonnet 的性能水准。

TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview

在下面这道 2024 年全国高中数学竞赛试题中,TeleAI-t1-preview 面对三角函数的复杂等式关系,通过多次假设尝试和思路纠偏,将原先的复杂等式抽丝剥茧,转化成简化的方程式,并经过逻辑清晰的公式推导后,最终给出了正确答案。

TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview
TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview

可以看出,TeleAI-t1-preview 在回答问题时并非只是给出结论,而是把思考和分析过程也完整呈现。这样可以帮助学生在做题过程中深入理解题目背后的逻辑和思考方法。

例如,在一道概率论考研试题中,题目涉及“泊松分布”概念。TeleAI-t1-preview 首先对这个概念进行了介绍和解读,然后给出解题思路和最终答案。

TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview
TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview

我国古代数学发展历史悠久,流传众多经典著作,但因其文言文表述,通常让人望而却步。不少大模型也会陷入沉思,无法作答。

将《九章算术》中的一道题目给到 TeleAI-t1-preview 后,它先针对文言文进行了理解和简化,转换成现代汉语,随之给出数学推导和答案。

TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview
TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview

在这个过程中,TeleAI-t1-preview 还将形象思维与抽象思维结合,对所涉及的场景进行具象化思考,辅助理解题目。同时,它还严谨地进行了古今单位换算,顺利过关。

如果说数学竞赛和考研题目还能符合人的正常思维方式,那么面对极度“烧脑”的策略推理问题时,以往的大模型往往会答非所问,被绕到“陷阱”中去。

以下面这道问题为例,光是理解游戏规则就已经很难了,更不用说从何下手给出答案了。然而,TeleAI-t1-preview 却“眼都没眨一下”就迅速破题,大胆假设,严谨分析。

TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview
TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview

TeleAI-t1-preview 在解题过程中,列出了对游戏规则的理解、场景道具分析、优劣势分析,并给出解题策略、验证有效性。不仅如此,它还考虑到了可能出现的特殊情况。

创新“训练”策略,保障“推理”有效

人类通向 AGI 的旅程正在经历一场范式的迭代。当已有的高质量数据正像化石能源一样日渐枯竭时,当人们依然在为大模型的“黑盒”特性而担忧时,复杂推理大模型的重要性日益显著。

针对 TeleAI-t1-preview 训练的不同阶段,TeleAI 引入了创新的训练策略,从而保障思考推理过程准确有效。

数据准备阶段:

收集、构建了一个以数学为核心、多学科为补充的高质量推理数据集,确保模型能够适应不同类型的推理任务。

Judge Model(评估模型):

训练了一个 Judge Model 专门用于分析和评估模型长思考链路的正确性,为模型的反思和错误修正提供指导。

SFT(监督微调)阶段:

用 MCTS(蒙特卡洛树搜索)构造高质量长推理数据,结合每个步骤的准确率和解决方案长度来选择最优的完整路径,在保证推理答案准确性的同时有效拉长思考链路以获得更细粒度的推理过程。同时使用 Judge Model 对推理过程中正确率较低的路径进行分析,引导模型对错误的推理步骤进行反思和修正,从而构造出高质量的思维链数据进行 SFT 训练。

强化学习阶段:

额外构造了 Rule-based Reward Model(基于规则的奖励模型),以提供足够准确的奖励信号,通过在线强化学习算法进一步提升模型的逻辑推理能力。

直观呈现的思维链将帮助人们更清晰地追踪推理过程,方便验证推理正确性,从而使模型的可解释性和透明度大大提升。

TeleAI 将持续在推理模型领域研究探索,让人工智能基于人类的“已知”,推导出期盼得到的“未知”。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 1 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔 鹭羽 2025-12-24 09:1...
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI C++oding新王登场!MiniMax M2.1拿下多语言编程SOTA 克雷西 2025-12-24 ...
智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify

智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify

智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify 鹭羽 2025-12-23 1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
易烊千玺的华为绿手机,真的AI了

易烊千玺的华为绿手机,真的AI了

Failed to fetch content Read More 
AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背 鹭羽 2025-12-23 14...
长城首个VLA车型发布,魏建军回应「赌上姓氏造车」

长城首个VLA车型发布,魏建军回应「赌上姓氏造车」

长城首个VLA车型发布,魏建军回应「赌上姓氏造车」 贾浩楠 2025-12-23 13:57:25 来源:量子...