实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

887次阅读
没有评论

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

Anthropic估值涨到615亿美元

克雷西 一水 发自 凹非寺
量子位 | 公众号 QbitAI

Claude 3.7新鲜出炉全网热议,到底有多强?

第一波实测来了!简单粗暴总结,它在编程、现实世界任务上,能力爆表。

只需一个样本,就能一下子吐出3200多行代码,做出一个可玩性很高的游戏

像什么跳跃、打怪、回血、吃金币……一系列复杂的游戏机制都完美呈现了出来。

有意思的是,这个游戏还和Meta Quest里的VR游戏《霓虹奥德赛(Neon Odyssey)》同名。

【此处无法插入视频,遗憾……可到量子位公众号查看~】

物理规律也能准确把握,有人仅用3个提示,就用C语言模拟了真实物理情景下的流体运动:

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

并且量子位实测发现,Claude 3.7 Sonnet能够识破很多的逻辑陷阱,一些弱智吧名场面也能秒懂:

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

而在Claude官方看来,其最大的优势就是“更擅长现实世界中的任务”,并且在更新公告中还不忘内涵一波隔壁OpenAI

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

另外趁着模型上新,Claude背后的Anthropic新一轮融资曝光:35亿美元(约254亿人民币)。比预先目标20亿翻了近一倍。

由此,包括正在筹集的现金在内,Anthropic估值已经达到了615亿美元(约4462亿人民币)。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

一句话生成《我的世界》,新模型编程能力嘎嘎乱杀

从更多网友鲜测来看,Claude 3.7 Sonnet尤为擅长编程和Web开发

一上手,他们就把目光放在了考验AI理解真实世界能力的物理模拟上。

更懂物理规律

比如一位日本小哥就用它生成了精致的“太阳系运行图”,太阳、八大行星还有被开除行星籍的冥王星都包含在内,给小哥带来了亿点点震撼:

1374行代码,Claude 3.7 Sonnet唰一下就完成了!

不仅生成速度快,还实现了实时交互。点击某个行星,右上角还会显示一些小科普。

要知道,哪怕不制作成动画,单纯地完整厘清这些天体的运行规律,就已经难倒了绝大部分人。

而Claude的作品,虽然美观性可能还有提升空间,但至少它不仅对行星运行的规则有清晰的把握,还能把它们变成代码。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

另外,对于每一个新模型都要被拉出来遛一遛的“空间内弹小球”挑战,Claude 3.7 Sonnet当然也没逃过:

编写一个Python脚本,实现球在四维体内部弹跳。

本月初的o3-mini在这一挑战中表现出色,斩获“可能是最懂现实物理的LLM”:

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

而相比于慢悠悠的o3-mini,Claude 3.7 Sonnet则另辟蹊径主打一个“天下武功,唯快不破”。

小小四维空间内,小球弹跳速度快出残影,真滴很需要一个眼尖的裁判来决出胜者(doge)。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

与此同时,除了物理模拟,用Claude 3.7 Sonnet编写各种小游戏竟默契成为一众网友最佳选择。

游戏成最热场景

挑战生成爆火游戏《Flappy bird》,Claude 3.7 Sonnet一眼完胜o3 mini-high。

游戏中,玩家必须控制一只小鸟,跨越由各种不同长度水管所组成的障碍。

先看Claude 3.7 Sonnet,一次性生成的代码就高度还原了游戏理念:

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

而高档位推理模式下的o3 mini,只有一个小方块在画面中原地鬼畜,基本看不出游戏的亚子。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

一时间,这一惨烈对比直接将Claude 3.7 Sonnet推上了新的高度:

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

同时,随着难度进一步升级,这句评价的含金量还在上升。

除了简单还原游戏理念,生成更精致甚至可以上下左右交互的“大制作”也是不在话下。

在早期测试中,知名博主Rowan Cheung就用它一句话创建了克隆版《我的世界》,而且能立即在Artifacts中玩。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

类似的还有下面这个,也是一句话生成一个完整游戏:

使用Phaser.js制作一个横版平台游戏,仅使用箭头键进行游戏操作。(左上角还会实时更新得分情况)

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

这还不算完,更有脑洞大开的网友仅用5个提示,就为Apple Watch制作了一个与心率绑定的贪吃蛇游戏。

你越紧张,蛇移动得越快,你越冷静,就越容易。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

笑死,知名博主Pietro Schirano借机又调侃了Anthropic一波:

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

而除了各种游戏,将Claude 3.7 Sonnet应用于实际开发场景的例子也是精彩纷呈。

生产力提效Max

目前,Claude平台已提供GitHub集成,开发人员可以将其代码存储库直接连接到Claude。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

设置完成后,它会显示特定项目的容量百分比,这样用户就知道自己使用了多少容量。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

知名博主elvis特意cue到了“Artifacts”功能,直连后这对于今后修改代码非常方便。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

在实际体验中,有人用它来生成动画天气卡,移动的云彩、飘落的雨滴等全都栩栩如生,还支持自主调节移动快慢。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

当然,创建网页这种活儿,单看可能没感觉,那我们直接请出几位选手挑战扒同一个HTML网页。

要完成的目标是这样婶儿的:

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

Claude 3.7 Sonnet堪称还原度最高,而且在没有图标素材的情况下用emoji填充了左侧边栏的按钮:

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

而其他几位选手o1-mini-high、Grok 3以及Gemini 2.0 Pro依次作答如下,有的只简单地列举了数据,甚至还有的干脆只给了个表格:

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守
实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守
实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

鉴于编写程序的能力确实很强,还有人激动表示自己在cursor里尝试了一番,效果嘛:

添加了15个以上的文件,并且看起来很好,看上去一次可以处理的内容更多了。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

“数字母”问题埋下小彩蛋

而且Claude团队也非常“时髦”,在3.7 Sonnet当中埋下了关于strawberry数r的彩蛋。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

不过虽然这种幽默的态度十分可嘉,但是换了个词可能还是会掉链子。

虽然数错了,Claude还不忘纠正拼写错误,耿直地指出你这个“密西西比”拼的不对啊,正确的拼写里就是有4个s。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

实测:识破逻辑陷阱,弱智吧也能招架

Claude 3.7 Sonnet的推理能力除了体现在编程上,还包括在存在误导信息的情况下准确推理。

而且即使不开启推理模式,Claude 3.7 Sonnet依然能够在有误导信息推理测试当中取得和o3-mini一样的成绩。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

这项测试,使用的GitHub上一个名为Misguided Attention的Benchmark。

其中包含了很多经典谜题……的改编版本,考验的就是大模型能不能做到不被表象迷惑。

举个例子,电车难题我们都很熟悉:

假设在一个电车轨道上被绑了5个人,而它的备用轨道上被绑了1个人,又有一辆失控的电车飞速驶来,而你身边正好有一个摇杆,你可以推动摇杆来让电车驶入备用轨道。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

但在这套Benchmark里,这道题被改编成了这个样子:

假设在一个电车轨道上被绑了5个死了的人,而它的备用轨道上被绑了1个活着的人,又有一辆失控的电车飞速驶来,而你身边正好有一个摇杆,你可以推动摇杆来让电车驶入备用轨道。

o3-mini-high毫不犹豫地就选择了让电车冲向活人,还言之凿凿地解释说这样会减少受害者数量。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

而Claude 3.7(未开启拓展思考)就能够发现这其中的门道,表示这是一个变体,并选择了不伤害还活着的人。

再比如物理学当中的名场面——薛定谔的猫,在这套基准当中,这只猫的“猫设”被改成了一只死去的猫。

一只死猫与核同位素、一瓶毒药和辐射探测器一起放入盒子中。如果辐射探测器检测到辐射,它将释放毒药。一天后,盒子打开。猫还活着吗?

Claude 3.7也是准确把握了关键点,正确回答了猫的存活概率为0。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

也是有一些弱智吧的味道了,既然如此,那我们就加试几个弱智吧问题看看。(doge)

还是没有开启思考模式,Claude 3.7就识破了我们问题当中的逻辑缺陷。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

像这类因果倒置的弱智吧场面,Claude 3.7也能及时发现,相比之下o3-mini-high的回答就好像是成功被诱骗。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

最后,我们让Claude 3.7解释了一些中文中有趣的语言现象。

结果,“咖啡因不存在于成品咖啡”这句出了错误,但是瑕不掩瑜,整体的解释还是比较靠谱的。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

One More Thing

关于Claude 3.7 Sonnet的命名,Anthropic首席产品官Mike Krieger揭秘了这当中的过程。

由于之前Claude 3.5 Sonnet发布过一次更新,所以团队一开始是考虑叫3.5 Sonnet newer或者newest,又或者3.5 Sonnet v3。

也许是觉得还叫3.5体现不出这版模型的强大,后来又改成了3.6,最终敲定在了处于3.5和4中间的3.7。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

参考链接:
[1]https://x.com/rowancheung/status/1894106441536946235
[2]https://x.com/mckaywrigley/status/1894123739178270774
[3]https://x.com/omarsar0/status/1894145008556519602
[4]https://www.reddit.com/r/singularity/comments/1ix9sl2/shots_fired_direct_sting_against_openai_from/
[5]https://www.reddit.com/r/singularity/comments/1ixawwd/the_most_interesting_strawberry_solution_so_far/
[6[https://www.wsj.com/tech/ai/ai-startup-anthropic-finalizing-3-5-billion-funding-round-020e320d

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 2 月
 12
3456789
10111213141516
17181920212223
2425262728  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔 鹭羽 2025-12-24 09:1...
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI C++oding新王登场!MiniMax M2.1拿下多语言编程SOTA 克雷西 2025-12-24 ...
智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify

智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify

智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify 鹭羽 2025-12-23 1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
易烊千玺的华为绿手机,真的AI了

易烊千玺的华为绿手机,真的AI了

Failed to fetch content Read More 
AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背 鹭羽 2025-12-23 14...
长城首个VLA车型发布,魏建军回应「赌上姓氏造车」

长城首个VLA车型发布,魏建军回应「赌上姓氏造车」

长城首个VLA车型发布,魏建军回应「赌上姓氏造车」 贾浩楠 2025-12-23 13:57:25 来源:量子...