首个OpenAI免费推理模型o3-mini发布！DeepSeek让奥特曼反思：不开源我们错了

一水
2025-02-01
12:25:08

来源：量子位

网友：可能是理解现实物理的最佳LLM

DeepSeek真算是给大模型圈提了个速——

就在刚刚，OpenAI深夜紧急发布了最新推理模型，o3-mini系列。

一共包含三个版本：low、medium和high。

其中o3-mini和o3-mini-high已经上线：

首个OpenAI免费推理模型o3-mini发布！DeepSeek让奥特曼反思：不开源我们错了

根据官方口径，o3系列模型，目标是推动低成本推理的边界。

ChatGPT Plus、团队和Pro用户从今天起可以访问OpenAI o3-mini，企业级访问将在一周后开放。

免费用户也可以通过选择“Search+Reason”来使用o3-mini来体验搜索。

或许是被DeepSeek逼急了，这是OpenAI首次向用户免费推出的推理模型。

甚至在随后的Reddit“有问必答”活动中，CEO奥特曼也罕见公开反思：

在开源权重AI模型这个问题上，(个人认为）我们站在了历史错误的一边。

与此同时，短短数小时内，网友们已经开始疯狂实测ing……

针对STEM推理优化，但价格相较DeepSeek-R1依旧贵出天际

还是先来看看技术报告都写了啥。

去年年底，OpenAI上线了o3-mini预览版，再次刷新小模型能力边界。（在成本和低延迟上与o1-mini相当）

当时CEO奥特曼预告称，正式版将在今年1月发布。而卡在ddl的最后时刻，正式版o3-mini终于上桌。

整体而言，和前一代o1-mini类似，它也针对STEM（Science、Technology、Engineering、Mathematics）进行了优化，延续了mini系列小而美的风格。

仅o3-mini（medium），不但在数学编码上的表现与o1系列相当，而且响应更快。

人类专家测评显示，大多数情况下o3-mini比o1-mini产生更准确、更清晰的答案，获得了56%的偏好度，同时在处理复杂现实问题时的重大错误率更是降低了39%。

数学能力上，低推理强度下的o3-mini（low）达到了与o1-mini相当的水平；中等推理强度下能力媲美满血版o1；而一旦推理强度拉满（high），其表现直接超越o1系列一众模型。

在由60多位顶尖数学家准备的FrontierMath难题测试中，高推理强度下的o3-mini相较o1系列也有了大幅提升。

官方甚至特意注明，如果搭配Python工具使用，o3-mini（high）在第一次尝试时就解决了超过32%的问题，其中包括28%以上的T3级问题。

科学能力方面，在PhD水平的物化生问题上，低推理强度下的o3-mini就已经和o1-mini拉开了层级。

当然，在编码这项重要能力上，o3-mini更是在各层级上领先o1系列。

根据它们在LiveBench的表现可以看出，随着推理强度升级，o3-mini的优势还在不断扩大。

而且需要提醒，o3-mini在取得上述领先的同时响应更快，其平均响应时间为7.7秒，较o1-mini的10.16秒提升了24%。

最后在安全评估方面，o3-mini在多项安全评估中明显超过了GPT-4o。

价格方面，相比于输入/输出分别为0.14/0.55美元的DeepSeek-R1，o3-mini依旧贵出天际。

根据网友辣评，DeepSeek-R1目前还是性价比之王：更快、更好、更便宜。

BTW，OpenAI此次照例公布了o3-mini背后团队。可以看出，这一次是由奥特曼本人亲自带队，研究项目主管分别为Carpus Chang和Kristen Ying（名单中也有很多我们熟悉的老朋友如任鸿宇、赵盛佳等）。

网友疯狂实测中

正如我们刚才所提到的，目前网友们已经开始疯狂实测中。

不过从评价上来看，大伙儿对o3-mini的表现褒贬不一。

例如在用Python实现“球在四维体内部弹跳”的任务上，有人认为o3-mini是最好的LLM：

效果是这样的：

然后有网友尝试用DeepSeek来做同样的任务，从效果上来看，认为o3-mini稍微胜出一些：

更直接的对比，让一个球在旋转的六边形内弹跳，球应受到重力和摩擦力的影响，o3-mini和DeepSeek R1的效果差距就比较明显了：

包括更复杂的一些的任务，在球体内创建100个弹跳的黄色球，o3-mini现在也是可以做到：

再如让o3-mini设计两个贪吃蛇互相竞争的游戏：

除了DeepSeek之外，网友也用o1和o3-mini的效果做了对比，例如生成一座庞大、惊人的史诗级漂浮城市。

还有一位网友提出了令几乎所有大模型都会出错的迷惑性题目，但让他较为震惊的是，o3-mini竟然答对了：

不过知名播客博主Lex Fridman对o3-mini的评价却是：

OpenAI o3-mini是一个好模型，但DeepSeek R1性能相似，价格更低，并揭示了其推理过程。

更好的模型将会出现（迫不及待想要 o3-pro），但“DeepSeek 时刻”是真实的。我认为五年后它仍会被记住，作为科技历史上的一个转折点。

One More Thing

就在o3-mini上线几小时后，奥特曼本人也携团队参与了Reddit的“有问必答”活动。

考虑到开源DeepSeek最近搅动了AI圈，奥特曼罕见公开反思：

在开源权重AI模型这个问题上，(个人认为）我们站在了历史错误的一边。

甚至也承认，OpenAI的领先优势不会像以前那么大了。

DeepSeek的确很优秀，我们也会继续研发更好的模型，但领先优势将更小。

与此同时，OpenAI的一些未来计划也曝光了。

比如高级语音模式即将迎来更新，OpenAI会直接称它为GPT-5，而不是GPT-5o，不过目前还没有具体时间表。

另外，推理模型也将支持调用更多工具。

最后，满血版o3也被提及，不过看起来距离还相当遥远……

2025 年 2 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

首个OpenAI免费推理模型o3-mini发布！DeepSeek让奥特曼反思：不开源我们错了

首个OpenAI免费推理模型o3-mini发布！DeepSeek让奥特曼反思：不开源我们错了

针对STEM推理优化，但价格相较DeepSeek-R1依旧贵出天际

网友疯狂实测中

One More Thing

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定