首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

1,037次阅读
没有评论

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

有两种思维模式

白交 发自 凹非寺

量子位 | 公众号 QbitAI

Claude深夜重磅发布新模型——

Claude 3.7 Sonnet,首个混合推理模型问世,在编码和前端Web开发方面显著提升,实现了全面领先。

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

与o3-mini实际对比,相同的提示词下,Claude 3.7 Sonnet的表现。

o3-mini:

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

Claude 3.7 Sonnet:

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

(提示词:编写一个 p5.js 脚本,模拟 100 个彩球在球体内弹跳。每个球都应留下一条逐渐消失的轨迹,显示其最近的运动轨迹。容器球体应缓慢旋转。确保实现适当的碰撞检测,使球保持在球体内。)

还有用它来做视频游戏

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

作为混合推理模型,它有两种思考模式:

近乎实时地反应&扩展地、循序渐进(step-by-step)地思考。

扩展思维模式下,它在数学、物理、指令遵循、编码等多个任务中有额外的提升。

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

API用户甚至还可以精准控制模型的思考时间。目前已经在全平台上线,包括亚马逊云服务Bedrock平台、谷歌云,而要想要扩展思考模式,除免费版外其他都可以用。

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

模型升级,价格不变——

与前代产品相同,每百万输入token 3 美元,每百万输出token 15 美元(其中包括思考代币)。

除此之外,他们还发布了他们首个编码工具Claude Code

它能够一次性完成原本需要45分钟以上手动才能完成的工作。

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

网友们纷纷表示,已经迫不及待地想用上了。

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

不过,为什么是3.7版本呢?

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

Claude 3.7 Sonnet:首个混合推理模型

官方此次首先表示,他们开发Claude 3.7 Sonnet这个的理念与市场上其他推理模型不同。

类比于人类大脑有快速反应和深度思考两种一样,他们认为推理应该是前沿模型的综合能力,而不是完全独立的模型。

由此,Claude 3.7 Sonnet在多个方面都有体现这个理念。

首先,Claude 3.7 Sonnet 既是普通的 LLM 模型,又是推理模型:

您可以选择何时让模型正常回答,何时让模型在回答前思考更长时间。

在标准模式下,Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升级版。在扩展思维模式下,它会在回答前进行自我反思,从而提高其在数学、物理、遵循指令、编码和许多其他任务上的表现。

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

在两种模式下,对模型的提示方式类似。

这是代码生成任务下,两种思维模式回答之间的区别。

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

其次,控制思考预算,用速度和成本来换取答案的质量。

API用户可以告诉Claude思考的数量不超过 N 个token,N 的值可以是任何值,但输出上限不能超过 128K个token。

模型能力的表现,也就取决于允许思考的token数量。例如以下在AIME 2024的成绩图。

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

第三,优化重点转向更能反映用户需求的现实世界任务,对数学和计算机竞赛问题优化较少。

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

△解决实际的概率问题

编码任务,网友们对它这种「vibe coding」(面对非开发人员的AI辅助编码)印象深刻。

有网友实测发现,确实能解决其他模型无法解决的问题。>你能用 p5js 编写最复杂的布料模拟吗?

结果Grok 3 和o1 pro没有可用的结果。而Claude 3.7 Sonnet的表现是:

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

在代理工具使用上面,实现了SOTA。

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

Claude 3.7 Sonnet 在指令遵循、一般推理、多模态能力和代理编码方面表现出色,扩展思维在数学和科学方面提供了显著的提升。

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

除了传统的基准测试之外,它甚至在宝可梦游戏测试中超越了所有以前的模型——

团队为Claude配备了基本内存、屏幕像素输入以及按键和屏幕导航的功能调用,使其能够超越通常的上下文限制,持续玩游戏,并通过数以万计的交互进行游戏。

最终实验表明,它是迄今所有Sonnet模型中表现最好的,它成功与三个宝可梦道馆馆主(游戏的 Boss)战斗并赢得他们的徽章。相比之下,Claude 3.0 Sonnet 甚至无法离开故事开始的地方Pallet Town 的子。

x 轴表示 Claude 在玩游戏时完成的互动次数;y 轴表示游戏中的重要里程碑,包括收集某些物品、导航到某些区域以及击败某些Boss。

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

此次,研究人员使用了并行测试时间计算来提高模型的性能。

他们的方法是对多个独立思考过程进行采样,并在事先不知道真实答案的情况下选出最佳答案。其中一种方法是使用多数投票;选择最常见的答案作为 “最佳 ”答案。另一种方法是使用另一个语言模型(比如Claude的第二个副本),要求它检查自己的工作或学习的评分函数,然后选出它认为最好的答案。

结果在GPQA评估中,这一方法让模型取得了惊人的改进。

GPQA是一组常用的具有挑战性的生物、化学和物理问题。 Claude 3.7 Sonnet 使用 256 个独立样本的等效计算、学习的评分模型和最大64 token的思维成本之下,取得了 84.8% 的 GPQA 分数(包括 96.5% 的物理子分数)。

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

此外,Claude 3.7 Sonnet 还对有害请求和良性请求进行了更细致的区分,与前代版本相比,不必要的拒绝次数减少了 45% 。

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

Claude首个编码工具面世

Claude Code,从官方透露的功能看,它可以搜索和读取代码、编辑文件、编写和运行测试、提交和推送代码到 GitHub以及使用命令行工具。

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

目前还只是早期的预览版,可直接在终端运行。

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间

早期测试中,Claude Code可以一次性完成了通常需要 45 分钟以上手动操作才能完成的任务,从而减少了开发时间和开销。

在接下来的几周内,他们计划结合他们使用情况不断改进它——

比如增强工具调用的可靠性,增加对长时间运行的命令的支持,改进应用内渲染,并扩展 Claude 对其功能的理解。

除此之外,他们还改进了 Claude.ai 上的编码体验。GitHub 集成现已在所有Claude使用平台中提供,开发人员可以将其代码存储库直接连接到 Claude。

参考链接:
[1]https://www.anthropic.com/news/claude-3-7-sonnet
[2]https://www.anthropic.com/research/visible-extended-thinking
[3]https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking
[4]https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview
[5]https://x.com/deedydas/status/1894110678027571412
[6]https://x.com/_akhaliq/status/1894106278185898489

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 2 月
 12
3456789
10111213141516
17181920212223
2425262728  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔 鹭羽 2025-12-24 09:1...
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI C++oding新王登场!MiniMax M2.1拿下多语言编程SOTA 克雷西 2025-12-24 ...
智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify

智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify

智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify 鹭羽 2025-12-23 1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
易烊千玺的华为绿手机,真的AI了

易烊千玺的华为绿手机,真的AI了

Failed to fetch content Read More 
AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背 鹭羽 2025-12-23 14...
长城首个VLA车型发布,魏建军回应「赌上姓氏造车」

长城首个VLA车型发布,魏建军回应「赌上姓氏造车」

长城首个VLA车型发布,魏建军回应「赌上姓氏造车」 贾浩楠 2025-12-23 13:57:25 来源:量子...