首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

1,097次阅读
没有评论

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

网友:可能是理解现实物理的最佳LLM

DeepSeek真算是给大模型圈提了个速——

就在刚刚,OpenAI深夜紧急发布了最新推理模型,o3-mini系列

一共包含三个版本:low、medium和high。

其中o3-mini和o3-mini-high已经上线:

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

根据官方口径,o3系列模型,目标是推动低成本推理的边界

ChatGPT Plus、团队和Pro用户从今天起可以访问OpenAI o3-mini,企业级访问将在一周后开放。

免费用户也可以通过选择“Search+Reason”来使用o3-mini来体验搜索。

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

或许是被DeepSeek逼急了,这是OpenAI首次向用户免费推出的推理模型。

甚至在随后的Reddit“有问必答”活动中,CEO奥特曼也罕见公开反思:

在开源权重AI模型这个问题上,(个人认为)我们站在了历史错误的一边。

与此同时,短短数小时内,网友们已经开始疯狂实测ing……

针对STEM推理优化,但价格相较DeepSeek-R1依旧贵出天际

还是先来看看技术报告都写了啥。

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

去年年底,OpenAI上线了o3-mini预览版,再次刷新小模型能力边界。(在成本和低延迟上与o1-mini相当)

当时CEO奥特曼预告称,正式版将在今年1月发布。而卡在ddl的最后时刻,正式版o3-mini终于上桌。

整体而言,和前一代o1-mini类似,它也针对STEM(Science、Technology、Engineering、Mathematics)进行了优化,延续了mini系列小而美的风格。

仅o3-mini(medium),不但在数学编码上的表现与o1系列相当,而且响应更快。

人类专家测评显示,大多数情况下o3-mini比o1-mini产生更准确、更清晰的答案,获得了56%的偏好度,同时在处理复杂现实问题时的重大错误率更是降低了39%

数学能力上,低推理强度下的o3-mini(low)达到了与o1-mini相当的水平;中等推理强度下能力媲美满血版o1;而一旦推理强度拉满(high),其表现直接超越o1系列一众模型。

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

在由60多位顶尖数学家准备的FrontierMath难题测试中,高推理强度下的o3-mini相较o1系列也有了大幅提升。

官方甚至特意注明,如果搭配Python工具使用,o3-mini(high)在第一次尝试时就解决了超过32%的问题,其中包括28%以上的T3级问题。

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

科学能力方面,在PhD水平的物化生问题上,低推理强度下的o3-mini就已经和o1-mini拉开了层级。

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

当然,在编码这项重要能力上,o3-mini更是在各层级上领先o1系列。

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

根据它们在LiveBench的表现可以看出,随着推理强度升级,o3-mini的优势还在不断扩大。

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

而且需要提醒,o3-mini在取得上述领先的同时响应更快,其平均响应时间为7.7秒,较o1-mini的10.16秒提升了24%。

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

最后在安全评估方面,o3-mini在多项安全评估中明显超过了GPT-4o

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

价格方面,相比于输入/输出分别为0.14/0.55美元的DeepSeek-R1,o3-mini依旧贵出天际。

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

根据网友辣评,DeepSeek-R1目前还是性价比之王:更快、更好、更便宜。

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

BTW,OpenAI此次照例公布了o3-mini背后团队。可以看出,这一次是由奥特曼本人亲自带队,研究项目主管分别为Carpus Chang和Kristen Ying(名单中也有很多我们熟悉的老朋友如任鸿宇、赵盛佳等)。

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

网友疯狂实测中

正如我们刚才所提到的,目前网友们已经开始疯狂实测中。

不过从评价上来看,大伙儿对o3-mini的表现褒贬不一。

例如在用Python实现“球在四维体内部弹跳”的任务上,有人认为o3-mini是最好的LLM:

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

效果是这样的:

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

然后有网友尝试用DeepSeek来做同样的任务,从效果上来看,认为o3-mini稍微胜出一些:

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

更直接的对比,让一个球在旋转的六边形内弹跳,球应受到重力和摩擦力的影响,o3-mini和DeepSeek R1的效果差距就比较明显了:

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

包括更复杂的一些的任务,在球体内创建100个弹跳的黄色球,o3-mini现在也是可以做到:

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

再如让o3-mini设计两个贪吃蛇互相竞争的游戏

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

除了DeepSeek之外,网友也用o1和o3-mini的效果做了对比,例如生成一座庞大、惊人的史诗级漂浮城市

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

还有一位网友提出了令几乎所有大模型都会出错的迷惑性题目,但让他较为震惊的是,o3-mini竟然答对了:

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

不过知名播客博主Lex Fridman对o3-mini的评价却是:

OpenAI o3-mini是一个好模型,但DeepSeek R1性能相似,价格更低,并揭示了其推理过程。

更好的模型将会出现(迫不及待想要 o3-pro),但“DeepSeek 时刻”是真实的。我认为五年后它仍会被记住,作为科技历史上的一个转折点。

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

One More Thing

就在o3-mini上线几小时后,奥特曼本人也携团队参与了Reddit的“有问必答”活动。

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

考虑到开源DeepSeek最近搅动了AI圈,奥特曼罕见公开反思:

在开源权重AI模型这个问题上,(个人认为)我们站在了历史错误的一边。

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

甚至也承认,OpenAI的领先优势不会像以前那么大了。

DeepSeek的确很优秀,我们也会继续研发更好的模型,但领先优势将更小。

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

与此同时,OpenAI的一些未来计划也曝光了。

比如高级语音模式即将迎来更新,OpenAI会直接称它为GPT-5,而不是GPT-5o,不过目前还没有具体时间表。

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

另外,推理模型也将支持调用更多工具。

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

最后,满血版o3也被提及,不过看起来距离还相当遥远……

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 2 月
 12
3456789
10111213141516
17181920212223
2425262728  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了 衡宇 2025-12-16 20:10:53 来...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026 克雷西 2025-...
顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式 思邈 2025-12-16 10:24:0...
PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026 梦瑶 2025-12...
Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控 量子位的朋友们 2025-12-16...
推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码 henry 2025-12-16 15:03:31 ...