从 Altman 对 GPT-5 的剧透中，我们应该如何迎接 AGI 的下一阶段？

1,335次阅读

没有评论

从 Altman 对 GPT-5 的剧透中，我们应该如何迎接 AGI 的下一阶段？

前几天的 2024 达沃斯世界经济论坛上，Sam Altman 谈到了 GPT 发展的一些新的方向及可能性，对于当下大模型的一些现状的分析。

公众号「信息平权」对 Altman 的发言进行了梳理，拼凑出了 GPT-5 的一些可能性，以及可能带来的新的产品模式和经济模式。

作者介绍：jason 信息平权主理人& 产业资本投资人

从 Altman 对 GPT-5 的剧透中，我们应该如何迎接 AGI 的下一阶段？

01 关于 GPT-5，Sam Altman 都说了什么？

达沃斯上 Sam Altman 参加了 4-5 场访谈（我竟然全部听完了…），大家低估了其中的信息量，可能远比小扎说的 60 万张卡更重要。摘出了 Sam 对 GPT-5 的评论，其实拼图已经很清晰：

「目前的GPT-4 有太多缺点，比我们今年将拥有的版本要差很多（much worse），比我们明年将拥有的差得更多」
「假如 GPT-4 目前只能解决人类任务的 10%，GPT-5 应该是 15% 或者 20%」
「最重要的不是它解决的具体问题，而是广泛意义的通用性在增加」
「更强大的模型、如何用好现有模型，是两个乘法因子，但显然更强大的模型更重要」
「对特定数据的访问、使AI更贴近实际工作，今年将在这些方面取得很大进展。人们目前抱怨的各种问题比如速度太慢、不是实时的，这将在今年变得更好。在更长、更复杂的问题上的表现更精确、做更多的事情，这方面能力也会提高」
「我认为 AI 最重要的一点是极大加速科学发现的速度，使新的科学发现越来越自动化。当然这不是一个短期内的事情，但一旦发生，这是一件很大的事情」
「随着模型变得更智能、更善于推理，我们需要的训练数据更少。就比如没人需要读完 2000 本生物学教材，你只需要一小部分超高质量的数据，并深入思考和咀嚼，模型会更加努力地思考一小部分已知的高质量数据。」
「对大规模AI准备的算力基础设施还不够」
「GPT-4 最好被视为一种预览（preview），局限性很明显。人类天生对于指数增长的直觉并不好，如果GPT-5 相较于 GPT-4 有如 GPT-4 相较于 GPT-3 那样的显著改进，以及 GPT-6 相对于 GPT-5 还是这样，那将意味着什么？如果我们一直在这条轨迹线上，将意味着什么？」
「随着 AI 变得更强大，甚至可能发现新的科学知识，甚至自动做 AI 研究，世界的发展节奏会超出我们的想象。我经常对人们说，没有人知道接下来会发生什么，保持谦卑看未来非常重要，你可以预测几步，但不要做太多预测。」
「当认知成本降低一千倍或一百万倍，且能力得到极大增强时，这将对世界产生何种影响？如果世界上人人都拥有一家，由 1 万个能力极强的虚拟AI员工、且是各个领域专家，组成的公司，他们不知疲倦，还越来越聪明，这个世界会怎样？这件事发生的时间无法预测，但会一直在一条指数增长的线上，我们能有多少时间做准备？」
「我认为智能手机不会消失，正如智能手机没有取代 PC 一样。但另一方面，我觉得AI不只是手机一样的简单计算设备+一堆软件，我觉得可能会是一个具有更大意义的东西」

02 控制短期预期，上调长期预期

我自己听完的感受是，适当控制短期预期，但要上调长期预期。但一个最核心的假设是，「指数增长」的范式是否成立，Sam 他们对于未来继续处于「指数增长」的信念来自于哪儿。

因为往大了说，人类社会以前不存在可以一直指数增长的玩意儿，更没见过一个行业才刚开始领军企业已经凭着 90% 份额干到 1.4 万亿美金。回溯互联网、智能机、电动化等等，界定我们现在处于什么阶段就显得非常重要。因为初期的线性外推导致踏空，尾巴的线性外推导致亏钱。

这让我想到真格yusen 的这张图

从 Altman 对 GPT-5 的剧透中，我们应该如何迎接 AGI 的下一阶段？

本质上是想说，AI和互联网最大的区别是，互联网越过 0 分就具有了实用价值，而 AI 不到 60 分价值就是 0。

因为互联网替代的对象之前几乎不存在，或者成本极其高昂（海底光缆之前跨大洲的数据通信），很容易就落地。但 AI 的替代对象就是人，或者现有软件，而这些的成本和效率之间的平衡，已经被当今世界优化到了极致。因此 AI 的价值拐点，本质上是 AI 越过社会智力成本的拐点，一旦越过，AI 价值的确是非线性上升。

因为存在这么一种可能性，也是AI与智能机互联网时代最大的区别：iPhone 到了 iPhone4 之后的形态基本固定，此后都是量变，再也没有大的质变（摄像头、触控交互、各类传感器等关键结构固定），目前的 AI 显然还没到 iPhone4 时刻，但关键是，AI 一旦越过 iPhone4 时刻（比如是 GPT-5 或 6），质变有可能不会停止，指数曲线不会停止，这将是区别于互联网时代的最大不同。

就相当于，当年的手机在 iPhone4 之后还在质变，每一代都是大版本迭代，如果历史是这样的，互联网巨头们的格局会如今天这般稳定吗？Apple 甚至说芯片厂的价值量占比会不会更高？那么对于AI来说，「计算」价值会否在很长一段时间大于「应用」？

回到社会智力成本拐点的问题，这件事的份量会有多大？互联网只是将物理世界数字化，并将信息传播的边际成本降到 0，就产生了每年数万亿美金的商业价值。如果AI将社会智力成本降到 0，会是多大价值？全世界最大的商业价值可能就是社会智力，一旦智力可以 0 成本批量复制，会将巨大的人力资本价值部分转化为 AI 资本价值。Elon Musk 说过「经济是生产实体乘以生产力——也就是劳动人口乘以人均生产率，假如人口数可以无限扩张，经济的上限会在哪儿？」

其次，大多数商品的成本结构都可以最终向上拆解为人力成本（脑力和体力），当被大幅降低，参考「T 型车」，成本高昂的商品服务会迅速大众化，例如量身定制的个人财务法律业务顾问、人人定制的软件、人人定制化的内容娱乐形态，催生众多新兴产业的诞生。再其次，桥水论文提到，成本降低会产生社会财富剩余，可支配的消费潜力增加，会有新的消费类别出现。

最后放飞下想象力，假如有一天实现了 AGI 甚至超越人的智能，「高等级思维」或「天才」不再稀缺，比如马斯克、乔布斯、Jeff Hinton/Ilya、贝索斯这样的大脑可以批量复制（量产爱因斯坦…），就是 Sam 在达沃斯上说的「每个人都可以拥有 1 万个聪明大脑服务你」，这又会产生什么样的社会和商业形态？

我想表达的是：从动机和潜在收益出发，AGI 的分量，会让任何一个理性且有实力的商业组织或国家，拼了命地坚持下去，因为没人会放弃「building god」这张巨大彩票或期权。1847 年英国的铁路投资在达到顶峰时占到了 GDP 的 7%；1996 年《电信法案》生效后的五年里电信公司对光缆、交换机、无线网络的投资超过 5000 多亿美元（按今天的价值计算超过万亿美元）。为什么？面对充满未知和无限可能性的生产力革命，一整代人类都会集体 FOMO。而目前英伟达的收入/全球 GDP 是多少？0.1%？（不代表可以线性外推 NVDA 收入，只作为 AI 总投资是否泡沫的参考指标之一）

03 距离 AGI 还很远，但数据语料可能不是问题了

但回到今天，在到达拐点之前，现实情况是，一个个行业先越过及格线再说：

从 Altman 对 GPT-5 的剧透中，我们应该如何迎接 AGI 的下一阶段？

目前的 GPT-4 的水平，只是到了「解决某一项任务」的水平，还不能「替代某一项工作」。因为任何一项人类工作都是非常多「任务项」组成的，一项任务的解决无法撑起一个工种。但正如上图所示，人类工作种类是分层的，随着 AI 能力一步步爬升，是对一项项任务、最终是一个个工作类别的持续替代。AI 进步慢，替代就慢，AI 进步快出现跃升（如到了 AGI），替代会猛然加速。这可能就是未来 5 年的叙事。短期看不到商业价值也不代表一直是 0 和 1，人类任务越过及格线的科目从量变到质变，直到 AGI 那一天捅破象限…

因此比尔·盖茨说的很清楚，18 个月后（2025 年 6 月）会看到AI对各领域实质性的广泛渗透。UBS 和 Morgan Stanley 都对北美 500 强企业的 CIO（首席信息官或技术官）做了调研，结果也显示 AI 对企业流程的改造都在 POC 验证阶段，24 年 H2 会看到更多原型验证跑通、进入实际生产流程，25 年才可能大规模进入实际生产。

为什么都是 25 年？因为在等两件事情，1）GPT-5（或者不知道叫什么）的发布，模型能力上一个台阶，解决幻觉问题、鲁棒性一致性问题、复杂推理能力问题；2）算力成本降低到之前的 1/10，目前算力成本按照每 12-18 个月除以 10 的速度降低，18 个月后很多被成本制约的应用场景才可以落地。

这里引申出关键的问题还是，1）下一代模型的能力会如何；2）再之后AI会否遇到瓶颈「撞墙」。

1）GPT-5（或者其他名字）的能力提升幅度其实大概已经确定，首先肯定距离 AGI 还很远，这一点 Sam Altman 在圣诞节明确表示了，且看完上面你就知道 AGI 意味着什么分量，你就会更加敬畏，甚至希望这玩意最好是个科幻，晚点来。

其次，GPT-5 的能力下限，应该至少会比 Gemini Ultra 强，如果只是看纸面结果，大概能推断：多模态且增加视频生成能力（3D 未知）、Long sequence 更长的输入窗口进而显著提高通用性、复杂推理能力相比 GPT-4 明显提升、可能开始具备较强的 planning 能力。再量化一点，就是刚刚 Sam 在达沃斯上的比喻「假如 GPT4 完成了人类工作 10%，那 GPT5 应该是 15% 或 20%」。此外按照常理，解决相同问题的算力成本，可能会比 GPT-4 降低一个数量级。

2）GPT-5 之后会不会撞墙。GPT-4 用了 MoE 因此引发了对 OpenAI 单模型能力撞墙的质疑，但 MoE 的更大价值在于降低推理成本，更像是「优化」而不是「登月」。

模型的瓶颈 1 是 transformer 架构的争论，的确有微创新的可能，Ilya 在「事变」之前的采访中，提到了现有注意力机制算力消耗过大问题，但他也提到有了解决方向。但你说新架构如 RWKV、Mamba 替代 transformer？引用一个哥们的观点，领军企业用脚投票了，这是个生态、资源、人才自我加强的过程，新的架构崛起有点难，至少按照 Ilya、Anthropic Dario 等领军人物的看法，Transformer 潜力还有很大挖掘空间。此外，从 LSTM 到 transformer 出现是 20 多年，架构的创新节奏即便加速也是以 10 年为单位；

模型的瓶颈 2：对世界知识高质量压缩的数据是不是穷尽了？按照 scaling law 那条曲线，达到一个「能写论文独立做科研水平的」的 AI 需要的数据是目前的 5 个数量级，去哪儿找… 视频等多模态数据的价值更多在于文本数据提供的知识对现实世界的 grounding，但视频图片等本身对世界知识的压缩率远低于文本，正如一本几百 KB 的书包含的知识转化为视频可能是几个 T。怎么办？

按照 Sam 在达沃斯上的说法，未来不需要那么多数据，质量更重要，数据训练效率也在提高（更少数据提取更多认知），以及可以设更多 epoch 反复「咀嚼」。且之前关于 Q-star 的猜测和 Jim Fan、Musk 等人的评论表明，OpenAI 很可能已经实现了合成数据的有效利用。甚至 Anthropic 的 Dario 在播客中也提过「数据很可能不是制约因素，出于多种原因我不应该细说，但世界上有很多数据来源，也有很多方法可以生成数据」。这种合成数据引导法可以类比人类进化，我们灵长类祖先在掌握语言之前，是无法总结、提炼、应用、累积认知和经验的，但一旦人类发展出语言，就会出现基因/文化的共同进化，这与 LLM 的合成数据/self-play 循环非常相似。

此外，做个轻松点的比喻，我们读了万卷书，行了万里路，看了万千世界，就好比电影《这个男人来自地球》，一个人活了百万年，几乎是个行走的世界知识库。此时的他再学习一门新知识，是否需要那么多输入？我们说「悟性」高的人是一点即通，为什么？因为过去的高质量训练让他建立了世界运行原理的底层「相关性」。这可能也就是目前模型训练正在做的事（难怪 OpenAI 内部说他们在 building god）。

因此，不妨对 scaling law 的延续乐观一点，这一次我们真的可能在一条指数线的早期。与摩尔定律一样，这是个经验性规律，一定需要严密的理论解释吗？Maybe not。直到蒸汽机发明一个世纪后，人类才对热力学有了全面的了解。技术发展历史经常出现发明先于理论，或许这一次AI也是如此。就好比，并没有什么物理定律规定摩尔定律一定持续下去，总会出现一些瓶颈让人高呼摩尔定律已死，但台积电、英特尔、AMD、苹果这些伟大企业和领军人物，凭着产业、商业、甚至人性最深层的驱动力，让这一经验定律延续了几十年。