卡帕西：强化学习很糟糕，但其他所有方法都更糟

时令
2025-10-18
14:38:04

来源：量子位

AGi起码还有十年

时令发自凹非寺

量子位 | 公众号 QbitAI

卡帕西大神的最新专访来了！

作为特斯拉前AI总监、OpenAI创始成员，卡帕西在近两个半小时的访谈中，深入回答了一系列引人深思的问题：

为何强化学习表现糟糕（但其他方法更糟糕）？
为何通用人工智能会延续2%的GDP增长率？
为何自动驾驶技术历经漫长攻坚期？

解答问题之余，由于卡帕西早已宣布全职搞教育，那不得不提的还有他对未来教育发展的见解。

网友表示：知识点实在太密集了，卡帕西访谈的两个小时等于别人的四个小时。

干货要来了，请系好安全带，别被轰晕了！

AGI起码还要十年

访谈一开始，主持人就先对卡帕西提出了一个人令许多人都很好奇的问题：

为什么说未来将是“智能体的十年”，而不是“智能体的一年”？

卡帕西解答道，现在确实有一些非常早期的智能体，比如他每天都在使用的Claude、Codex等，它们已经展现出令人惊叹的能力。

但不可否认的是，这些系统还需要不断进化，最终达到理想状态，而十年正是实现这一蜕变所需要的时间跨度。

那这个时间节点为什么是十年呢？

卡帕西接着举了个例子，他认为，当智能体能够像员工或实习生一样与人协作时，才是它真正发挥作用的时候。

显然，目前智能体还做不到这样。那么，为了让它们做到，需要什么条件呢？为什么人们今天还没用它们来做呢？

原因很简单，就是现有系统尚未成熟。智能水平尚未达标、多模态能力存在局限、也缺乏操作计算机完成复杂任务的能力。

此外，它们也没有持续学习能力——你无法通过单次告知就让系统永久掌握知识。在认知架构层面仍存在显著缺陷，导致现有方案完全不可行。

凭借卡帕西15年做AI的经验，要系统性解决这些难题，大约还需要十年。

LLM认知缺陷

之后，卡帕西还讲了自己构建代码仓库的一些事情。

他认为目前人们与代码交互的方式主要有三类：

完全拒绝所有大语言模型（LLM），坚持手动编写所有代码。
中间派系（也是卡帕西所属的阵营）仍然会亲自编写大量代码，但会利用现有的自动补全功能。
氛围编程，直接输入“请实现某某功能”，然后让模型完成。

卡帕西承认，现有的智能体在做模块化代码方面确实很有效，但他做的NanoChat是一个很独特的仓库，几乎每行都需要深度思考，所有细节都必须精确安排。

然而，现有的模型存在太多认知缺陷。由于它们在训练中吸收了网络上常见的编程范式，所以它们总是无法突破思维定势，执意要将代码改造成生产级标准。

但卡帕西的代码本身已包含若干假设，根本不需要那些冗余内容。它们不仅膨胀了代码库规模，增加了复杂度，还频繁使用已弃用的API，最终搞得一团糟。

总的来说，卡帕西认为现在的模型还没有达到理想状态，业界对它们的能力有些过度夸大，其实它们仍需要大量改进。

强化学习很糟糕

接着，主持人聊到了现在大火的强化学习。

卡帕西表示：

强化学习远比普通人想象的还要糟糕，它确实很差，但其他方法更差。

以解数学题为例，在强化学习中，你会首先生成大量尝试方案：针对同一问题产出数百种解法，可能涉及不同思路的探索与调整，最终某个答案恰好正确。

这时强化学习的做法是：对最终正确的解题路径上的每个步骤都进行权重强化，仿佛在说“请多做这类操作”。

但问题在于这种做法充满噪声。它默认正确解法的每个环节都完美无缺，但现实中人们常会绕弯路，只是最终误打误撞找到答案。只要结果正确，所有错误步骤反而都被强化了——这显然不合理。

人们投入大量计算资源，最终仅获得“正确/错误”的二元判断，并据此对整个轨迹进行加权，卡帕西认为，“这实在荒谬”。

真正的人类绝不会这么干。第一，人类不会做数百次尝试；第二，当人类找到答案时，会进行复杂的复盘：“哪些做得好，哪些没做好”。他们会思考，而当前LLM完全没有这种机制。

以阅读为例，当LLM“阅读”时，只是在做下一个词预测并从中获取知识。但人类阅读时，书本更像是激发思考的提示集——人们会通过信息重组来内化知识。

对此，卡帕西期待在预训练阶段加入“思考消化”环节，让模型能真正整合新信息与既有认知。

AGI将延续2%的GDP增长趋势

接着，主持人还提到了衡量AGI的标尺，以教育水平为例，AGI是从高中生水平通过强化学习达到大学生水平，最终取得博士学位。

卡帕西可不认同上述标准，他认同的是OpenAI初创时对AGI的定义：能完成任何具有经济价值任务且达到或超越人类水平的系统。

这就涉及到现有工作被替代的程度，卡帕西认为，即使是如客服中心员工这种更易自动化的职业，AGI也不能瞬间完全替代，而是实现“自主性滑块”——AI处理80%常规工作，剩下20%留给人类监督。

那如果有AGI替代人类工作，它的并行复制会显著加速AI进步吗？会出现智力爆炸吗？

卡帕西回答道：智力爆炸已经在发生了，通过历史GDP的指数增长就能体现出来。这是渐进的自动化趋势：工业革命是物理自动化，早期软件是数字自动化。

他认为：

这种增长模式大体保持不变。就像互联网让我们维持2%的增长一样，AGI也只是延续这种模式，不会突然产生巨大的跳跃。

自动驾驶为何耗时如此之长

主持人还提到了卡帕西在特斯拉的经历，问道：“你曾在2017年到2022年领导特斯拉自动驾驶项目，为什么这个项目耗时如此之长？”

首先，卡帕西澄清了一点：自动驾驶还远未完成。

对于某些任务或工作来说，演示到产品的差距非常大。演示可能很容易，但做成真正的产品非常难。自动驾驶尤其如此，因为失败代价太高。

软件工程也有类似特性。比如普通编程可能没那么严格，但如果你写的是生产级代码，任何小错误都可能导致安全漏洞，泄露数百万人的个人信息。

自动驾驶如果出错可能有人受伤，但软件出错可能带来的后果几乎是无限的。

其中的关键在于所谓的“9的进度”。每增加一位9（比如从90%到99%的可靠性），都需要大量工作。卡帕西在特斯拉的五年里，他们可能达到了三位或两位9，但还有更多9等着去完成。

毕竟真正的产品要面对现实中的各种挑战，需要不断修补各种边缘情况。

教育的未来

最后，卡帕西作为一名全职教育家，不得不提的还有教育。

卡帕西表示：

我们在尝试建立一所技术知识方面的顶尖学府，一所非常现代化、领先的学校。我想做的是一种真正的“导师体验”。

以他学韩语为例，一开始是自学，然后加入韩国的一个小班，和十来个学生一起上课。后来他换成了一对一导师。他发现这位导师的教学非常棒，可以迅速判断他的知识水平，提出合适的问题来理解他的认知模型。

目前，即使是优秀的LLM也做不到这一点，但好的导师可以做到。一旦导师了解自己，就能提供给学生最需要的知识——适度的挑战，既不太难也不太简单。

此外，卡帕西还想做一门非常优秀的课程，让学生学习AI时能有顶尖的体验。这个课程就是LLM101N，Nanochat是其中的经典项目。之后他还需要构建中间内容，招募助教团队，完善整门课程。

最后的最后，有的网友也是狠狠附议了卡帕西访谈中的一些观点。

比如LLM的“健忘症”。

但有的人也表示：

完全不同意，现在的编码智能体已经很可靠了。

对此，你怎么看呢？欢迎在评论区分享你的观点～

参考链接：https://www.dwarkesh.com/p/andrej-karpathy

2025 年 10 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

卡帕西：强化学习很糟糕，但其他所有方法都更糟

卡帕西：强化学习很糟糕，但其他所有方法都更糟

AGI起码还要十年

LLM认知缺陷

强化学习很糟糕

AGI将延续2%的GDP增长趋势

自动驾驶为何耗时如此之长

教育的未来

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定