GPT-4创造者Ilya Sutskever：第二次改变AI浪潮的方向

1,575次阅读

没有评论

作为GPT系列模型背后“组装者”和推动者，毫不夸张地说，没有Ilya Sutskever，就没有现在的ChatGPT以及GPT-4。他正在改变世界。

更惊人的是，十年前，他已经改变过一次世界。那个引发深度学习新一轮革命浪潮的AlexNet也与Ilya有关，他是AlexNet的作者之一，后续随之而来的AlphaGo、GPT、CLIP、DALL-E和Codex都离不开他的贡献。

从推动这一系列变革的科学家角度，他究竟如何看待当先ChatGPT、GPT-4模型的发展？他对AI的思考和坚定信念从何而来？OpenAI下一步研究方向是什么？他又如何看待AI对社会的影响？

在近期与英伟达CEO黄仁勋（GTC大会）以及Eye on AI播客的主持人Craig S. Smith的两场对话中，Ilya对此进行了解答。

OneFlow以QA形式对上述两场对话进行了编译整理，对于问题以下不作具体区分。（Craig的播客经授权后由OneFlow编译，内容转载请联系OneFlow获得授权。播客：https://www.eye-on.ai/）

GPT-4创造者Ilya Sutskever：第二次改变AI浪潮的方向

1
AI界的“iPhone时刻”

Q：ChatGPT就是AI界的“iPhone时刻”，你是如何实现这一历史性转变的？

A：最开始，我们也不清楚该如何开展整个项目，而且这个领域与现在的发展走向也完全不同。2016年左右开始创办OpenAI时，这一领域的研究者还很少，我们当时的同事大多来自Google/DeepMind，他们有从业经验，但思路相对而言比较狭窄，有所束缚。

那时我们有两个大的基础想法，它们的影响一直延续到今天。第一个想法是通过压缩进行无监督学习。现在看来这是理所应当，但在2016年，无监督学习是一个还没有被解决的问题，也没有任何科学家有相关想法。

Yann LeCun当时到处说这是一个技术上的瓶颈。压缩也不是人们经常会谈到的问题，但ChatGPT实际上确实压缩了训练数据，我们通过不断训练自回归生成模型实现了数据压缩。如果数据被压缩得足够好，就必须要提取其中存在的所有隐藏信息，这就是关键所在。

这也直接导致了我们研究情绪神经元。OpenAI科学家Alec Radford训练LSTM来预测亚马逊评论的下一个字符时发现，如果你预测下一个字符足够好，LSTM就会有一个与情绪对应的神经元。这就很好地展示了无监督学习的效果，也验证了下一个字符预测的想法。这个发现对我们的影响很大。

但哪里能得到无监督学习的数据呢？无监督学习的难点不在于数据，更多关于为什么要这么做，以及意识到训练神经网络来预测下一个字符是值得追求和探索的。

然后Transformer出来后，我们立即发现这个模型就是我们想要的，于是做出了GPT-1。

第二个想法就是强化学习。我有一个很强的信念是“越大越好”，OpenAI的目标是找到扩展的正确路径。我们完成的第一个真正的大型项目是实时战略游戏DOTA 2。当时我们训练了一个强化学习的Agent来与自己对抗，目标是达到人类玩家的水平。

从DOTA的强化学习转变为人类反馈的强化学习，再加上GPT技术基座，成就了今天的ChatGPT。

Q：有人认为，ChatGPT只是一个大型语言模型，但在我看来，那背后有自己的复杂系统。能否介绍一下你们是如何通过强化学习进行精调的？ChatGPT背后是否有多种系统进行支撑？

A：当我们训练大型神经网络以准确预测互联网上大量不同文本的下一个词时，我们在做的其实是在学习一个世界模型。从表面看，神经网络只是在学习文本中的统计相关性，但实际上，学习统计相关性就能把知识压缩得很好，神经网络所学习的是，它在生成文本过程中的一些表述，文本只是这个世界的一个映射，所以神经网络学习的是这个世界的多个方面的知识。

这就是它在准确预测下一个词的任务中所学习到的，对下一个词的预测越准，还原度越高，你看到的文本的准确度就越高。这就是ChatGPT模型在预训练阶段所做的，它尽可能多地从世界的映射（也就是文本）中学习关于世界的知识。但这不能说明神经网络会表现出人类希望它做出的行为，这就需要第二阶段的微调、人类反馈的强化学习以及其他形式的AI系统的协助，这个阶段做得更好，神经网络越就越有用、可靠。

Q：多模态为GPT-4带来的最大突破是什么？

A：多模态非常有意思。第一，多模态在视觉识别上特别有用。因为整个世界是视觉化的，人类和其他动物也是视觉动物，人脑1/3的灰质都是用于视觉的，如果没有视觉，神经网络的用处不会达到它应有的程度，GPT-4能够很好地去理解这些图像。

第二，除了从文本中学习外，我们还能从图像中学习关于这个世界的知识，尽管这看起来还不太明确。一个人可能一生之中会听到10亿个词，对我们来说，有尽可能多的信息来源很重要。同样，这也适用于神经网络。即使是视觉信息，也会通过文本缓慢传播，如果再加上视觉信息，模型就能学到文本中原本没有的信息。

Q：相比ChatGPT，GPT-4在哪些方面有所改进？

A：ChatGPT版本有时会错误地理解问题，给出的回答有的很不理想，但GPT-4好多了，还能会以更快的方式去解决难题，简而言之，就是可靠性更高了。

GPT-4是在ChatGPT的基础上进行改进的。GPT-4的训练大约始于6-8个月前，它的预测能力更加准确，这得益于其更好的神经网络，使其能够更加精准地预测下一个单词，并深入理解文本。

GPT-4为什么能更精准地预测下一个单词，为什么这会带来更深的理解能力？就像你读侦探小说时，情节、事件以及其他线索都不清楚，使你无法准确预测故事结局。但当你阅读小说的最后一页时，就可以很容易推测出凶手是谁，这是因为你在阅读过程中积累了大量的知识和经验。同样地，GPT-4的更大训练数据和神经网络可以帮助它更好地理解文本，从而更准确地预测下一个单词。

Q：从ChatGPT到GPT-4，有哪些能力让你觉得很惊艳

A：一方面是模型的可靠性，另一方面，最让我觉得惊艳的就是，这些模型真的有效。我在AI领域差不多有二十多年了，神经网络从最开始毫不起眼的工作慢慢演进，通过更大的数据集训练之后，变得越来越强，尽管基础算法不同，但训练方式是类似的。我经常会感叹于人工神经元的想法居然真的有效。

“智能”背后的工作原理

Q：你是何时对计算机科学感兴趣的？这种兴趣来自最初的一时冲动？还是由脑科学、神经科学等兴趣引发的？

A：我出生于俄罗斯，在以色列长大，十多岁时随父母移民到了加拿大。根据父母的说法，我从小就表现出了对AI的兴趣。我一直想搞清楚意识（consciousness）这个东西，对一切能够帮我了解意识的东西感兴趣。在这方面，AI似乎是个很好的切入点。

17岁时，我就开始跟着Geoffrey Hinton在多伦多大学做研究了。当时，深度学习是人工智能领域最重要、最难接触的部分，我一直想做这方面的研究。

现在，我们理所当然地认为计算机是可以学习的，但在2003年，情况恰恰相反，AI领域的最大成就是国际象棋引擎深蓝（Deep Blue）。当时AI的发展程度还比较低级，就拿国际象棋来说，AI只是通过简单的方法寻找棋子的最佳走位。

这种方法难以用于实战，因为当时人们还没有搞清楚该怎么让AI学习，但我对此很感兴趣，幸运的是，Geoff是多伦多大学的教授，我有机会在学校见他，见面后一拍即合，我很快加入了他的团队。

Q：你只是单纯地对机器学习感兴趣，还是与Geoff一样，希望借助机器学习来了解大脑的奥秘？

A：AI涵盖的领域非常广泛，人们入行AI领域的动机也各有不同，而我想要弄清楚“智能”背后的工作原理。

现在，对这个问题我们已经有了一些答案。“智能”的背后是一张大型神经网络，我们对神经网络的工作原理也有了一定程度的了解。但在当时，虽然神经网络已经存在，却没人知道它的用处。

所以“智能”到底是如何运作的？到底该怎么做才能让计算机变得稍微智能一点？

那时的我有一个非常明确的想法：在AI领域作出真实、有效的贡献。当时AI届看似人多，贡献也层出不穷，但却没有取得任何实质性的成就，就像一片荒芜之地，看不到希望。这些就是我最初从事AI的动力。

Q：Geoff曾说，卷积神经网络（CNN）的突破促使你参加了ImageNet竞赛，而Alex用他高超的编程技能训练了神经网络。

A：简而言之，当时我意识到，如果在一个足够大的数据集上训练大型深度神经网络，让这个神经网络去处理复杂任务（比如视觉等），只要坚持训练下去，就能成功。

这背后的逻辑是：人脑是拥有神经元的神经网络，可以快速处理视觉等复杂任务，可以得出，其它某些神经网络也可以很好地做到这一点。因此，我们需要一个较小但相关的神经网络，并用数据对其进行训练。计算机内部最好的神经网络将与执行这项任务的神经网络进行关联。当时的一种说法是，大型深度神经网络可以完成这一任务

另外，我们要有训练工具（Geoff的实验室完成了这部分的技术工作），将这两点相结合（一是神经网络要足够大，确保训练时正常运行；二是指定解决方案的数据），我们就可以训练神经网络，ImageNet竞赛刚好满足了我们的需求。Alex有快速卷积核，ImageNet拥有足够大的数据，而我们抓住了这个机会，做了一些前所未有的尝试，并取得了成功。

Q：Geoff曾提出一个非常有趣的观点：与人脑相比，具有大量参数的大型模型，尤其是大型语言模型，可以用相对较少的参数处理大量数据。相比之下，人类大脑有数以万亿计的参数，但处理的数据量相对较小。你是否思考过这个问题？

A：特别是在模型训练的早期阶段，现有神经网络技术结构确实需要大量数据。然而，在模型训练的后期阶段，对数据的需求会逐渐减少，这也是模型能够快速学习的原因。虽然模型的学习速度不及人类，但已经相当迅速了。

从某个角度来看，我们并不一定关心是否需要大量数据才能实现目标。但从更普遍角度，从较少的数据中学到更多知识是可能的，尽管这需要一些富有创意的想法。

从少量的数据中学习更多知识将会开启其他可能性，使我们能够向AI传授其缺乏的技能，并且更易传递我们的期望和偏好，以更精确地控制其行为。虽然经过训练后的语言模型可以快速学习知识，但还有更多的机会可以利用。

扩展的对象更重要

Q：2017年，《Attention Is All You Need》一文提出了自注意机制和Transformer模型。那么GPT项目的研发是如何开始的？

A：在OpenAI早期，我们的工作重心是“预测下一件事就是你所需的一切（predicting the next thing is all you need）”。当时，我们想利用有限的神经网络去预测下一个单词、像素，在我们看来预测就是压缩（compression）。我们想知道预测下一个单词能发展到什么程度，想知道预测能否解决无监督学习。在GPT之前，无监督学习就是机器学习的最高目标，是大家心目中的圣杯。

虽然现在人们已经彻底掌握了无监督学习，它已不再是人们关注的焦点，但它曾经确实是机器学习的最高目标，是一大难点。当时，我对这方面的研究非常感兴趣，因为足够好的预测可以帮助我们进行无监督学习，理想状态是实现全部数据集的无监督学习。

当时，我们使用的是递归神经网络（RNN），但它无法胜任上述任务。《Attention Is All You Need》论文发表以后，我们很快意识到Transformer可以解决当前神经网络学习的长程依赖（long-term dependencies）的局限问题。

这其实是技术问题，但我们立刻切换到Transformer。就这样，初期GPT开始萌芽、发展起来，有了Transformer，GPT运行越来越顺利，变得越来越大，随后我们意识到，可以让它一直不断扩大，就这样最终发展到了GPT-3，并走到了现在这个阶段。

Q：Richard Sutton（强化学习先驱）一直强调“扩展（scale）是我们所需要的一切”，而不需要新的算法。这一观点是否对你有影响或者是你们想到一块儿去了？

A：他的想法并没有影响到我。尽管Rich的《惨痛教训（The Bitter Lesson）》一文非常有说服力，我们也很乐意看到其他人的类似想法，但我认为，这篇文章的观点其实有点夸大其词，或者至少人们从中得出的观点“不管做什么，扩展就对了”是夸张的说法。这种说法是不正确的。我们需要扩展一些可以从中受益的特定事物。深度学习让我们首次实现了对扩展的有效利用，并从中获得了回报，这是深度学习的一大突破。在此之前，大型计算机集群的作用是什么？可能仅限于天气模拟、物理模拟、电影制作等等，除此之外没有任何真实的需求。

事实上，深度神经网络越大、训练数据越多，运行的效果就越好，这是第一个有趣的扩展案例。将来我们需要扩展的事物可能会出现变化，这种变化也许更有利于扩展，但现在我们还不知道变化的规模，在搞清楚它的规模之后，你可能又会惊讶于它的变化之微小。

总之，扩展的对象十分重要。现在，我们只是找到了一个能够获得回报的扩展对象。

Q：听你说过，需要更快的处理器才能进一步扩展模型。模型扩展（scaling of models）似乎是无止境的，但训练这些模型所需的计算能力已经接近极限，或者至少达到了社会公认的极限。

A：我记不太清你提及的具体评论，但在处理器方面，越快越好的逻辑不言而喻，我们确实需要更快、更多的处理器。不过，随着计算能力的需求不断提高，对计算资源的投入成本也在持续上升。

问题的关键不在于成本是否高昂，而在于我们能否通过投入成本得到超过其本身的价值。如果你投入了巨大的成本但没有获得任何价值，那么这样的代价肯定不值得。但是，如果你获得了非常有用、极具价值的东西，能够解决许多问题，那付出的成本就是值得的。

大型语言模型的局限性

Q：目前，大型语言模型的局限性在于，它们所拥有的知识只限于它们所训练过的语种，而大多数人类知识都是非语言性的。它们的目标是满足prompt的统计一致性（statistical consistency），而对语言所涉及的现实没有基本的理解。

A：其实，很难确定什么是语言模型的局限性。比如，两年前人们曾对当时的局限性高谈阔论，但现在的局限性跟当时相比又完全不同。因此相比于谈论局限性，将注意力放在当下的发展更为重要，毕竟谁又能保证目前的局限性还会在两年后仍制约着语言模型的发展呢？至少我没这个自信。

另一方面，有人认为模型只是在学习统计规律，因此它们不知道世界的本质究竟是什么。但我认为，学习统计规律比我们眼睛看到的更重要。之所以现在才有这个观点，是因为我们还没有（至少大多数人没有）真正在神经网络上花费很多时间，而神经网络在一定程度上是统计学。

什么是统计模型？其实只是拟合一些参数，比如真实发生的事情。预测也是一种统计现象，不过需要了解产生数据的真正底层过程才能更多地对数据进行压缩，进而完成预测。在这个过程中，你需要更多地了解这个产生数据的世界。

随着生成模型变得越来越好，理解程度也会越来越高，它们对整个世界的了解会让我们为之震惊。而其中诸多精妙之处，却不止存在于现世，那是一个透过文本镜头才能看到的世界。

它们了解到的世界是文字镜头映射出来的世界：学习互联网上人类生成的各类文本。但这些文本其实也表达了整个世界。

一个很有意义和启发性的例子是，Sydney是由ChatGPT支持的Bing衍生出的一种模式，当用户对Sydney说，Google是比Bing更好的搜索引擎时，Sydney就会变得好斗、咄咄逼人。

那么，我们该如何看待这种现象？这又意味着什么？有人会说，它只是在预测人类在这种情况下会怎么做。没错，人类确实会这么做，但这也许意味着用心理学语言开始理解神经网络的行为。

Q：事实上，神经网络有时会产生“幻觉”，而语言模型在学习世界、思想、概念等方面的表现要好得多，但输出方面却不尽人意，当我向ChatGPT询问关于我的个人信息时，它识别出我是一名记者，但它却给我冠上了很多没有获得过的荣誉。在你们未来的研究中，是否有措施来解决这个问题？

A：关于这一过程需要理解的是：在预训练阶段，我们只是训练语言模型，希望学习关于这个世界的一切；在人类反馈的强化学习（RLHF）阶段，我们关注的是输出结果。如果输出不合适或者不合理时，就会停止这样的输出。模型很快就能学会生成恰当的输出。

现在的问题在于输出水平，其实预训练阶段的情况并非如此。神经网络确实有编造回答的倾向，即使是ChatGPT也会时不时的胡乱编造，这极大地限制了模型的实用性。我希望能通过改进强化学习反馈步骤来阻止神经网络产生“幻觉”。此时你可能会问，它们真的会学习吗？我的答案是：让我们拭目以待。

Q：如果我告诉ChatGPT，它的回答有误，那么这是在对其进行训练，还是内部会给它一些惩罚或者奖励，以便下次回答得更加准确。

A：我们现在的做法是雇佣人工训练员来教神经网络（比如ChatGPT）如何表现。到目前为止，他们指定所需行为的方式略有不同。但事实上，你所描述的就是正确的训练方式：只需与它互动，它会从你的反应中推断自己的回答是否让你满意。

因此，输出结果不好，ChatGPT下次就应该做些不同的事情。虽然“幻觉”是一个很大的问题，但这种方法完全可以解决这些问题。

Q：Yann LeCun（图灵奖得主，CNN网络发明者）认为，大型语言模型所缺失的是一种非语言的基础世界模型（underlying world model），语言模型的构建可以对其进行参考。我想听听你对此的看法，以及你是否在这方面有所探索。

A：我看过他的提议，其中有许多想法，并且与当前技术范式可能存在一些细微差异，但在我看来，这些差异并不是非常显著。

首先，对于一个系统来说，拥有多模态的理解是可取的，这样可以使其从多方位（不仅仅从文本）来了解世界、了解人类以及与之相关的情况，如此一来，系统也能更好地理解它应该解决的任务，满足人类的需求。

在这方面，我们已经做了相当多的工作，比如Clip和Dall-E，它们都朝着多模态方向发展。这并不是一个非此即彼的情况，有人说如果没有视觉，不从视频中理解世界，就不能处理这方面的工作。但我想说的是：有些东西从图像和图表中学习起来要容易得多，但我们仍然可以通过文本来进行学习，只是学习速度要慢一点。

以颜色举例。虽然我们不能从文本中学习颜色的概念，但每个神经网络都通过“嵌入（embeddings）”表示单词、句子和概念，这些embeddings也就是高维向量，可以知道什么与什么类似，神经网络如何看待这个概念或那个概念。所以机器可以通过嵌入向量来判断颜色，紫色比红色更接近蓝色，但比橙色更接近红色，如果有视觉感知，颜色之间的差异一眼就可看出，但仅从文本来分辨，可能需要更长的时间，也许你知道怎么交流，已经了解了单词和语法，但也需要一段时间才能真正理解颜色。

因此，多模态非必要，但绝对有用。虽然这是一个很好的发展方向，但我并不认为必须在当前方案和多模态中二选一。

Yann LeCun的论文中提到：最大的挑战之一是，预测具有不确定性的高维向量。我们需要采取特定方法来解决这个问题。我发现，其实当前的自回归Transformers已经具有该属性，但论文中没有承认这一点。

举两个例子。一是给定某书中的一页，预测下一页。这有很多种情况，是一个非常复杂的高维空间，但自回归Transformers能处理得很好。对于图像处理也是如此。比如OpenAI在研发iGPT时，将Transformer应用于像素预测，能以非常复杂和微妙的方式生成图像，效果非常好。它有很不错的无监督表示学习能力。

Dall-E 1的情况也是一样。因此，论文中强调当前方法无法预测高维分布的部分是错误的，那绝对可以胜任。

Q：现在有一种观点：安排一批人类训练员与大型语言模型（如ChatGPT）一起工作，并通过强化学习对其进行指导。仅从直觉来看，这并不能有效教会模型理解潜在现实（underlying reality）。

A：我不同意这个说法。首先，我们的预训练模型已经掌握了关于潜在现实的必要知识，并对语言及其产生过程有了深入了解。

也许我需要再次强调一点。在大型语言模型中，学习到的文本数据是对真实世界进程（real-world processes）的压缩表示，其中包含有关人类思想、感受，以及人类所处环境和人际互动等方面的信息。

一个人可能处于不同情境，而这些情境所涉及的信息是压缩进程的一部分，并由神经网络表示，以生成新的文本内容。语言模型越好，生成模型的表现越好，保真度越高，就能更好捕捉这个进程。要想构建一个高质量的系统，只需遵循“如果方法有效，则继续使用”的策略。

那些指导模型学习的训练员团队本身也在利用AI来辅助他们的工作。这些工具能够高效地完成大量任务，但仍需要人类进行监督和评估，以确保结果的高可靠性，这与人类的教育过程没什么不同。

我们会积极寻求方法来提高模型的效率和准确性，以构建表现良好的语言模型。为了确保模型能够识别幻觉（hallucination），需要进行额外的训练。一旦模型掌握了该技能，就可以将其用于处理业务需求了。而强化学习人类训练员或者其他类似的方法能够教会模型辨识幻觉。虽然目前还没有确切的结论，但我们很快就会找到答案。

Q：你近期关注的研究方向是什么？

A：提高模型的可靠性和可控性，加快模型从少量数据中学习知识的速度，并降低对人工指导的依赖，避免出现“幻觉”。我认为这一系列问题密不可分。此外，还需要注意这些问题所涉及的时间跨度。

AI对社会管理的影响

Q：你谈过AI给民主带来的影响。若是拥有充足的数据和足够大的模型，就可以用这些数据来训练模型以获得让所有人都满意的最优决策。你觉得这会帮助人类进行社会管理吗？

A：我们还无法预测政府将如何利用这种技术来获取各种建议，不过在民主问题上，未来可能会出现这样一种情况：由于神经网络无处不在且对社会产生巨大影响，我们将不得不建立某种民主流程，让公民向神经网络提供信息，包括他们希望的事务状态、行为方式等。

这可能是一种高效的民主形式，即我们可以从每个公民身上获取更多的信息并进行汇总，然后指定这些系统如何采取行动。当然，这会引发许多问题。

当前的模型还有很多提升空间，未来，特别是在训练和使用模型方面会发生一些变化，从而使模型能够更好地解决这类问题。

Q：按你所说，每个人都有机会输入数据，然而这也牵涉到世界模型的问题。你是否认为AI系统最终可以变得足够强大，能够理解某种情境并分析所有的变量？

A：分析所有变量意味着需要综合考虑情境中的所有因素，确定重要变量，并进行深入研究。这个过程类似于读书，我可以选择读一百本书，也可以仔细阅读一本书，这样就可以获得更多。这种方法在一定程度上是值得推崇的，但也许在某种程度上，理解所有事情是基本不可能的

举个更简单的例子：当社会或公司面临复杂情况时，即使对于中等规模的公司来说，处理大量数据和分析信息的任务也超出了个人的能力范围。然而，通过正确地构建AI系统，就可以在各种情境下获得极大的帮助。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

GPT-4创造者Ilya Sutskever：第二次改变AI浪潮的方向

test

test

文心AIGC

test

test