OpenAI 首席执行官 Sam Altman 在麻省理工学院日前举办的 Imagination in Action 活动中表示,孕育 ChatGPT 聊天机器人的研究战略已经结束;且行业未来的进步方向尚未清晰。
Altman 并未预测将来可能出现的研究策略或技术。但他认为,进一步的发展不会来自于将模型继续做大。“我认为我们正处于将模型做大这一时代的尽头。我们将以其他方式使它们变得更好。”
一些原因可能在于,成本的飙升和收益的递减遏制了扩展。有数据表明,ChatGPT 需要超过 10000 个 GPU 来进行训练,保持运行还需要更多资源。目前,GPU 市场主要由 Nvidia 主导;而该公司最新的专为 AI 和高性能计算 (HPC) 设计的 H100 GPU,每件价格高达 30603 美元。
OpenAI 在描述 GPT-4 的一篇文章中指出,预估扩大模型规模的回报越来越少。Altman 也透露,训练 GPT-4 花费的金额已经超过了 1 亿美元;此外,公司在数据中心的建造数量和速度方面也存在有物理限制。
图源:维基百科
自 OpenAI 于 11 月推出 ChatGPT 以来,一些科技公司纷纷加码该赛道;微软将 ChatGPT 技术整合到 Bing 中、谷歌推出了名为 Bard 的竞争对手等。与此同时,包括 Anthropic、AI21、 Cohere 和 Character.AI 在内的众多资金充足的初创公司也投入大量资源来构建更大的算法,以追赶 OpenAI 的脚步。这一新型聊天机器人在大众日常生活中的使用率也越来越高。
美国《连线》杂志认为,Altman 的表态意味着开发和部署新的 AI 算法的赛道中出现了意外转折。Altman 的这一发声也暗示着,GPT-4 可能是 OpenAI 将模型做大并向其提供更多数据的战略中的最后一个重大进展。
Cohere (在 LLM 领域与 OpenAI 竞争) 的联合创始人 Nick Frosst 曾在谷歌从事 AI 方面的工作,他对 Altman 所持的“做大不会永远奏效”想法表示赞同。他也认为,Transformer 的进展超出了规模。“有很多方法可以让 Transformer 变得更好、更有用,而且很多方法不涉及向模型添加参数。新的 AI 模型设计或架构,以及基于人类反馈的进一步调整是许多研究人员已经在探索的有前途的方向。”
此外,Altman 还在与 TechCrunch 的采访中表示,尺寸是对模型质量的错误衡量;并将其与曾经的芯片速度竞赛进行了比较。
“我认为人们过于关注参数数量,也许参数数量肯定会呈上升趋势。但这让我想起了 1990 年代和 2000 年代芯片的 gigahertz race,当时每个人都试图指向一个大数字。我认为重要的是,我们应该关注如何快速提高能力……我们想要向世界提供的是最有能力、最有用和最安全的模型。我们在这里不是为参数数量而自娱自乐。”
延伸阅读: