DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

1,064次阅读
没有评论

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

团队还给基准测试挑出了bug

梦晨 西风 发自 凹非寺

量子位 | 公众号 QbitAI

DeepSeek版o1,有消息了。

还未正式发布,已在代码基准测试LiveCodeBench霸榜前三,表现OpenAI o1的中档推理设置相当

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

注意了,这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview(轻量预览版)。

而是摘掉了轻量版的帽子,称为DeepSeek-R1-Preview(预览版),意味着替换了规模更大的基础模型

LiveCodeBench团队透露,他们正在与DeepSeek合作评估新模型的能力,在合作过程中,DeepSeek团队还帮他们找出并解决了评分系统的一些bug。

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

与此同时,他们还晒出了目前仅有的一张DeepSeek-R1-Preview的思考过程。

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

鉴于DeepSeek此前已宣布R1模型将开源,有网友表示,与OpenAI o1编程能力相当的开源模型即将发布,2025年的编程就只剩下按Tab键了。

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

DeepSeek推理大模型满血版

两个月前,DeepSeek在官网上线DeepSeek-R1-Lite-Preview时曾透露:

DeepSeek-R1-Lite-Preview使用强化学习训练,推理含大量反思和验证,遵循新的Scaling Laws——

推理越长,表现越强。

在AIME测试基准中,随着推理长度的增加,DeepSeek-R1-Lite-Preview表现出稳定的得分提升。

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

DeepSeek-R1-Lite推理的特点在网友们的后续测试中也得到了验证:

在某些情况下,模型似乎能够在生成推理步骤时自我纠正,表现出类似原生“自我反思”的能力。不过,没有训练数据、模型架构技术报告/论文的细节,很难确认这一点。

期待未来的开源模型和API!

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

摘掉Lite的帽子,变成DeepSeek-R1-Preview,意味着换了更大的基础模型。

之前Lite版就在难度较高数学和代码任务上超越o1-preview,大幅领先GPT-4o。

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

这次在LiveCodeBench上,这次的DeepSeek-R1-Preview的表现又与OpenAI o1-Medium相当,网友们更加期待开源模型和API了。

LiveCodeBench由UC伯克利、MIT和康奈尔大学团队推出,旨在对大模型的代码能力进行全面且无污染的评估。

具体避免测试数据泄露的方法,是随着时间的推移不断从人类的编程竞赛平台收集新的题目。

除了代码生成,还会评估模型在代码自修复、执行和测试输出预测等方面的能力。

这样实时更新、确保公平性和可靠性的测试方法,获得了开发者社区的认可。

还有程序猿喊话Cursor直接把R1-Preview集成到Agent mode里:

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

One More Thing

赶在春节前,许多还在做训练的国产大模型团队,都把自家模型更新了一遍:

MiniMax开源4M超长上下文新模型!性能比肩DeepSeek-v3、GPT-4o

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

国内数学最强!实测讯飞版o1:上能打奥赛卷高考,下能辅导寒假作业

阿里开源首个视觉推理模型,击败GPT-4o,网页一度404

……

OpenAI似乎要趁这边放假开始搞事情了(狗头),奥特曼发帖透露:

o3-mini完成外部合作测试,已确定最终版,将在几周内推出,会同时上线API和ChatGPT

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

在后续对话中,奥特曼还确认了未来模型更多基本情况:

  • o3-mini的速度会非常快
  • o3-mini大多数情况下不如o1-pro
  • o3 pro收费从$200/月起步
  • OpenAI正在关注如何让AI一次性输出更多内容
  • 2025年计划把GPT系列和o系列合并
DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

参考链接:
[1]https://x.com/StringChaos/status/1880317308515897761
[2]https://x.com/deepseek_ai/status/1859200149844803724
[3]https://x.com/sama/status/1880356297985638649

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 1 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小米大模型“杀”进第一梯队:代码能力开源第一,智商情商全在线

小米大模型“杀”进第一梯队:代码能力开源第一,智商情商全在线

小米大模型“杀”进第一梯队:代码能力开源第一,智商情商全在线 克雷西 2025-12-18 08:57:11 ...
ISC.AI 2025创新百强颁奖典礼落幕,首发智能体专家驱动产业升级

ISC.AI 2025创新百强颁奖典礼落幕,首发智能体专家驱动产业升级

ISC.AI 2025创新百强颁奖典礼落幕,首发智能体专家驱动产业升级 量子位的朋友们 2025-12-18 ...
具身智能的数据难题,终于有了可规模化的解法

具身智能的数据难题,终于有了可规模化的解法

具身智能的数据难题,终于有了可规模化的解法 思邈 2025-12-18 14:20:44 来源:量子位 成立4...
医生版ChatGPT,估值120亿美元

医生版ChatGPT,估值120亿美元

医生版ChatGPT,估值120亿美元 Jay 2025-12-18 13:45:12 来源:量子位 Jay ...
国产AI芯片看两个指标:模型覆盖+集群规模能力 | 百度智能云王雁鹏@MEET2026

国产AI芯片看两个指标:模型覆盖+集群规模能力 | 百度智能云王雁鹏@MEET2026

国产AI芯片看两个指标:模型覆盖+集群规模能力 | 百度智能云王雁鹏@MEET2026 西风 2025-12-...