新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

564次阅读
没有评论

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

“欧洲的OpenAI”Mistral AI终于发布了首款推理模型——Magistral

然而再一次遭到网友质疑:怎么又不跟最新版Qwen和DeepSeek R1 0528对比?

(此前该公司发布Ministral 3B/8B时,声称“始终优于同行”,却没有对比Qwen2.5)

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了
新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

在该模型发布的前几个小时,Mistral AI的CEO Arthur Mensch在接受炉边访谈时声称即将发布的Magistral能够与其他所有竞争对手相抗衡。

在官方展示的基准测试结果中,DeepSeek-R1的数据确实不是最新的(在AIME-25数学测试中,DeepSeek-R1-0528的准确率已经从旧版的70%提升至87.5%),并且比较行列里完全不见Qwen的身影。

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

不过,与同公司初期模型Mistral Medium 3相比,该框架在AIME-24上的准确率提升了50%。

此次Magistral发布了两种版本:

Magistral Small——24B参数的开源权重版本,可在Apache 2.0许可下自行部署。

Magistral Medium——更强大的、面向企业的版本,在Amazon SageMaker上提供。

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

专为透明推理而设计

在Magistral发布之前,Mistral AI的CEO Arthur Mensch在访谈中提到:

“从历史上看,我们看到美国的模型用英语进行推理,中国的模型更擅长用中文进行推理。”

于是,这次Magistral的一个亮点就是支持多语言推理,尤其是解决了主流模型用欧洲语言的推理效果不如本土语言的缺陷。

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

下面的例子展示了在Le Chat中,使用Magistral Medium的阿拉伯语提示和响应。

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

与通用模型不同的是,Magistral针对多步逻辑进行了微调,提升了可解释性,并在用户的语言中提供了可追溯的思考过程,能够实现大规模实时推理。

下面的例子展示了重力、摩擦和碰撞的单次物理模拟,在预览中使用的是Magistral Medium。

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

就好像Magistral不是黑箱预言家,而是一个能陪你「摆事实、讲道理」的智能伙伴。

并且,在Le Chat中,通过Flash Answers,Magistral Medium的token吞吐量比大多数竞争对手快10倍。

这就能够实现大规模的实时推理和用户反馈。

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

作为Mistral推出的首个基于纯强化学习(RL)训练的推理大模型,Magistral采用改进的Group Relative Policy Optimization(GRPO)算法。

直接通过RL训练,不依赖任何现有推理模型的蒸馏数据(如DeepSeek-R1需SFT预热)。

通过消除KL散度惩罚、动态调整探索阈值和基于组归一化的优势计算,在AIME-24数学基准上实现从26.8%到73.6%的准确率跃升。

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

首创异步分布式训练架构,通过Generators持续生成、Trainers异步更新的设计,配合动态批处理优化,实现高效的大规模RL训练。

还反直觉地发现纯文本RL训练可提升多模态性能(如MMMU-Pro-Vision提升12%),并验证RL对小模型同样有效(24B的Magistral Small在AIME-24准确率达70.7%)。

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

这些创新使Magistral在无需预训练蒸馏的情况下,以纯RL方式为LLM的强化学习训练提供了新范式。

One More Thing

官方没有给出Magistral与最新版Qwen和R1的对比,网友来代劳了。

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

从结果可以看出,Qwen 4B与该模型相近,小型的30B MoE效果更好,R1最新版就更不用说了(doge

并且,由于“欧洲的OpenAI”越来越不Open,Stability AI前CEO建议Mistral AI应该争取真正的开源来占据开源的领导地位。

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

参考链接:
[1]https://mistral.ai/news/magistral
[2]https://x.com/dylan522p/status/1932563462963507589
[3]https://x.com/arthurmensch/status/1932451932406415531

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 6 月
 1
2345678
9101112131415
16171819202122
23242526272829
30  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...