Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

一水
2024-12-26
14:24:55

来源：量子位

还登上了LiveBench最强开源LLM宝座

还没等到官宣，Deepseek-v3竟意外曝光了？！

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

据Reddit网友爆料，v3已在API和网页上发布，一些榜单跑分也新鲜出炉。

在Aider多语言编程测试排行榜中，Deepseek-v3一举超越Claude 3.5 Sonnet，排在第1位的o1之后。

（相比Deepseek-v2.5，完成率从17.8%大幅上涨至48.4%。）

且在LiveBench测评中，它是当前最强开源LLM，并在非推理模型中仅次于gemini-exp-1206，排在第二。

目前Hugging Face上已经有了Deepseek-v3（Base）的开源权重，只不过还没上传模型介绍卡片。

综合网上多方爆料来看，Deepseek-v3相比前代v2、v2.5有了极大提升——

与v2、v2.5配置对比

首先，Deepseek-v3基本配置如下：

采用685B参数的MoE架构；
包含256个专家，使用sigmoid函数作为路由方式，每次选取前8个专家 (Top-k=8)；
支持64K上下文，默认支持4K，最长支持8K上下文；
约60个tokens/s；

BTW，在Aider测评中击败Claude 3.5 Sonnet的还是Instruct版本（该版本目前未发布）。

为了进一步了解Deepseek-v3的升级程度，机器学习爱好者Vaibhav (VB) Srivastav（以下简称瓦哥）还深入研究了配置文件，并总结出v3与v2、v2.5的关键区别。

与v2（今年5月6日官宣开源）比较的结果，经AI整理成表格如下：

可以看出，v3几乎是v2的放大版，在每一项参数上均有较大提升。

而且瓦哥重点指出了模型结构的三个关键变化：

第一，在MOE结构中，v3使用了sigmoid作为门控函数，取代了v2中的softmax函数。这允许模型在更大的专家集合上进行选择，而不像softmax函数倾向于将输入分配给少数几个专家。

第二，v3引入了一个新的Top-k选择方法noaux_tc，它不需要辅助损失。

简单理解，MoE模型通常需要一个辅助损失来帮助训练，主要用于更好地学习如何选择Top-k个最相关的专家来处理每个输入样本。

而新方法能在不依赖辅助损失的情况下，直接通过主要任务的损失函数来有效地选择Top-k个专家。这有助于简化训练过程并提高训练效率。

对了，为便于理解，瓦哥用DeepSeek逐步解释了这一方法。

这是一种基于群体的专家选择算法，通过将专家划分为不同的小组，并在每个小组内部选择最优秀的k名专家。

第三，v3增加了一个新参数e_score_correction_bias，用于调整专家评分，从而在专家选择或模型训练过程中获得更好的性能。

此外，v3与v2.5（本月10日官宣开源）的比较也出炉了，后者主要支持联网搜索功能，相比v2全面提升了各项能力。

同样经AI整理成表格如下：

具体而言，v3在配置上超越了v2.5，包括更多的专家数量、更大的中间层尺寸，以及每个token的专家数量。

看完上述结果，瓦哥连连表示，明年有机会一定要见见中国的开源团队。(doge）

网友实测Deepseek-v3

关于v3的实际表现，另一独立开发者Simon Willison（Web开发框架Django的创始人之一）也在第一时间上手测试了。

比如先来个自报家门。

我是DeepSeek-V3，基于OpenAI的GPT-4架构……

再考考图像生成能力，生成一张鹈鹕骑自行车的SVG图。

最终图形be like:

对了，在另一网友的测试中，Deepseek-v3也回答自己来自OpenAI？？

该网友推测，这可能是因为在训练时使用了OpenAI模型的回复。

不过不管怎样，还未正式官宣的Deepseek-v3已在LiveBench坐上最强开源LLM宝座，在一些网友心中，这比只搞期货的OpenAI遥遥领先。(手动狗头）

2024 年 12 月
一	二	三	四	五	六	日
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

与v2、v2.5配置对比

网友实测Deepseek-v3

test

test

文心AIGC

test

test