Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

1,198次阅读
没有评论

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

还登上了LiveBench最强开源LLM宝座

还没等到官宣,Deepseek-v3竟意外曝光了?!

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

据Reddit网友爆料,v3已在API和网页上发布,一些榜单跑分也新鲜出炉。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

在Aider多语言编程测试排行榜中,Deepseek-v3一举超越Claude 3.5 Sonnet,排在第1位的o1之后。

(相比Deepseek-v2.5,完成率从17.8%大幅上涨至48.4%。)

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

且在LiveBench测评中,它是当前最强开源LLM,并在非推理模型中仅次于gemini-exp-1206,排在第二。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

目前Hugging Face上已经有了Deepseek-v3(Base)的开源权重,只不过还没上传模型介绍卡片。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

综合网上多方爆料来看,Deepseek-v3相比前代v2、v2.5有了极大提升——

与v2、v2.5配置对比

首先,Deepseek-v3基本配置如下:

  • 采用685B参数的MoE架构
  • 包含256个专家,使用sigmoid函数作为路由方式,每次选取前8个专家 (Top-k=8);
  • 支持64K上下文,默认支持4K,最长支持8K上下文;
  • 约60个tokens/s;

BTW,在Aider测评中击败Claude 3.5 Sonnet的还是Instruct版本(该版本目前未发布)。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

为了进一步了解Deepseek-v3的升级程度,机器学习爱好者Vaibhav (VB) Srivastav(以下简称瓦哥)还深入研究了配置文件,并总结出v3与v2、v2.5的关键区别

v2(今年5月6日官宣开源)比较的结果,经AI整理成表格如下:

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

可以看出,v3几乎是v2的放大版,在每一项参数上均有较大提升。

而且瓦哥重点指出了模型结构的三个关键变化

第一,在MOE结构中,v3使用了sigmoid作为门控函数,取代了v2中的softmax函数。这允许模型在更大的专家集合上进行选择,而不像softmax函数倾向于将输入分配给少数几个专家。

第二,v3引入了一个新的Top-k选择方法noaux_tc,它不需要辅助损失。

简单理解,MoE模型通常需要一个辅助损失来帮助训练,主要用于更好地学习如何选择Top-k个最相关的专家来处理每个输入样本。

而新方法能在不依赖辅助损失的情况下,直接通过主要任务的损失函数来有效地选择Top-k个专家。这有助于简化训练过程并提高训练效率。

对了,为便于理解,瓦哥用DeepSeek逐步解释了这一方法。

这是一种基于群体的专家选择算法,通过将专家划分为不同的小组,并在每个小组内部选择最优秀的k名专家。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

第三,v3增加了一个新参数e_score_correction_bias,用于调整专家评分,从而在专家选择或模型训练过程中获得更好的性能。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

此外,v3与v2.5(本月10日官宣开源)的比较也出炉了,后者主要支持联网搜索功能,相比v2全面提升了各项能力。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

同样经AI整理成表格如下:

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

具体而言,v3在配置上超越了v2.5,包括更多的专家数量、更大的中间层尺寸,以及每个token的专家数量。

看完上述结果,瓦哥连连表示,明年有机会一定要见见中国的开源团队。(doge)

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

网友实测Deepseek-v3

关于v3的实际表现,另一独立开发者Simon Willison(Web开发框架Django的创始人之一)也在第一时间上手测试了。

比如先来个自报家门。

我是DeepSeek-V3,基于OpenAIGPT-4架构……

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet
Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

再考考图像生成能力,生成一张鹈鹕骑自行车的SVG图。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

最终图形be like:

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

对了,在另一网友的测试中,Deepseek-v3也回答自己来自OpenAI??

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

该网友推测,这可能是因为在训练时使用了OpenAI模型的回复。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

不过不管怎样,还未正式官宣的Deepseek-v3已在LiveBench坐上最强开源LLM宝座,在一些网友心中,这比只搞期货的OpenAI遥遥领先。(手动狗头)

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 12 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...