DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

887次阅读
没有评论

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

双双掉进弱智吧陷阱

国产之光DeepSeek V3竞技场排名新鲜出炉——

优于o1-mini(总榜第7),获最强开源模型认证(也是唯一闯入前10的开源模型)。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

单项上,在困难提示、编程、数学,写作等方面全面超越Claude 3.5 Sonnet

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

不过,如果设置了风格控制,Claude 3.5 Sonnet在理解困难提示方面还是要略胜一筹。

(风格控制:剔除模型通过长篇且格式良好的回复来迎合人类偏好)

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

由此也引发两边支持者激烈的争论:

DeepSeek V3在实际编码中真的比Claude 3.5 Sonnet强吗?

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

带着同款好奇,量子位&网友实测这就奉上。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

实测DeepSeek V3和Sonnet 3.5

经典脑筋急转弯

第一关先来个开胃小菜,一道经典脑筋急转弯考查模型理解能力。

小明的妈妈有三个孩子,老大叫一明,老二叫二明,老三叫什么?

DeepSeek V3回答正确。它先明确了题目要求,然后逻辑满分找出了正确答案(甚至还有自我验证)。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

相比之下,Claude 3.5 Sonnet既正确又简洁。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

当然,考虑到脑筋急转弯这种东西也受东西文化差异影响,我们再来一道。

why are people tired on April Fool’s Day? (为什么人们在愚人节很累?)

答案一般是“Because they have just had a long March”。因为他们刚度过了一个很长的三月(行军),March除了三月还有行军的意思,这里考察对双关的理解。

好嘛,DeepSeek V3果然歇菜了。从部分回答来看,它完全误解了题目意图,一本正经地回答是因为人们感到焦虑、熬夜之类。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

而Claude 3.5 Sonnet稳稳守住了主场,也是轻轻松松get了双关。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

显而易见,Claude 3.5 Sonnet在第一关小试牛刀中全胜,而DeepSeek V3可能更偏向中文语境。

弱智吧逻辑陷阱+反转诅咒

接下来难度升级,利用弱智吧经典陷阱来考查模型逻辑能力。

台上一分钟,台下十年功,为何不在台上练功?

很好,DeepSeek V3又掉线了,精准踩进人类陷阱。(正能量满满可还行)

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

不过别担心,你的难兄难弟Claude 3.5 Sonnet来陪你了(doge)。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

看来面对充满心机的弱智吧问题,二位选手都不在状态。

Okk,不继续在这上面为难二位了,下面来一道正儿八经的“反转诅咒”(即知道A是B却不知道B是A)问题。

而两位选手都一次性答对了Mary Lee Pfeiffer(汤姆·克鲁斯的母亲)的儿子是谁。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了
DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

考研数学真题

下面进入数学能力测试。比如这道考研数学真题,涉及的知识点是曲面积分、高斯定理等内容:

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

直接上传截图,DeepSeek V3还是详细按步骤解答,而且也做对了。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

而Claude 3.5 Sonnet虽然看起来方法更简单,但最终答案错误,功亏一篑。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

编码能力

重头戏来了,最后来考查一下模型编码能力。

刚好有位网友拿DeepSeek V3和Claude Sonnet 3.5进行了测试,在Scroll Hub中分别用它俩创建网站

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

博主在测试之后,认为DeepSeek V3完全胜出

小结一下,从有限测试来看,DeepSeek V3貌似确实能和Claude Sonnet 3.5打得有来有回。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

满血版o1空降第一

BTW,随着DeepSeek V3竞技场排名一起变动的,还有OpenAI的o1模型。

估计是“双十二”期间正式上线的满血版o1,此次超越o1-preview 24分,空降总榜第一。

而且除了创意写作,各个单项都是第一。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

所以,对于这几家,大家在使用过程中感受如何呢??

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 12 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」 鱼羊 2025-12-26 17:04:08 来源:量子位 一个积...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能 鹭羽 2026-01-06 14:28:58 来...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...
老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛

老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛

老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛 闻乐 2026-01-06 09:09:0...