强化学习之父Richard Sutton：通往AGI的另一种可能

1,737次阅读

没有评论

2019年，强化学习之父、阿尔伯塔大学教授Richard Sutton发表了后来被AI领域奉为经典的The Bitter lesson，这也是OpenAI研究员的必读文章。

在这篇文章中，Richard指出，过去 70 年来，AI 研究的一大教训是过于重视人类既有经验和知识，而他认为最大的解决之道是摒弃人类在特定领域的知识，利用大规模算力才是王道。

这一思想很快得到了OpenAI首席科学家Ilya Sutskever的共鸣，某种程度上，它也启发了大模型领域所信奉的Scaling Law。

有趣的是，Richard认为，通过语言大模型方向来实现智能没有前途，他更赞同Yann LeCun关于世界模型的构想，这在目标与核心概念上与其主导的阿尔伯塔计划（Alberta Plan）相一致，尽管不过在具体实现方法上有所区别。

在他看来，实现AGI需要明确的目标和一个世界模型，并利用这个模型来制定行动计划以实现目标。

Richard Sutton研究人工智能已长达45年。他非常想弄清大脑的运作方式，为此做了大量跨学科研究，阅读了不同思想家对这一问题的看法，并试图从心理学入手，以找出大脑和计算机科学的运作方式。

在Craig Smith近期主持的一期播客中，Richard详细介绍了阿尔伯塔计划，目标是打造一个能够从与环境的交互中学习并做规划的具身智能体，这是一个宏大的五年计划。此外，他还深入分析了新算法的发展现状、模拟环境和真实环境之间的权衡以及通用人工智能（AGI）的终极目标。

Richard还谈到了与传奇工程师John Carmack的合作。2023年10月，Richard加入了后者创办的AI创业公司Keen Technologies并担任研究员，这家公司旨在2030年实现AGI。

来源 | Eye on AI OneFlow编译 翻译｜杨婷、宛子琳

1

苦涩的教训：算力常胜

Craig Smith：2019年，你发表的文章The Bitter lesson提到了增加计算资源的重要性，这一观点在你近期的论文中得到了进一步发展，并且与OpenAI扩展Transformer模型的做法一致。在之前与Ilya Sutskever的访谈中，我曾询问你的文章是否触发了OpenAI扩展Transformer模型的兴趣，但Ilya说，这只是一个巧合。相比新颖的算法，计算资源的扩展以及摩尔定律下计算资源的可用性更多地推动了人工智能研究的进展，对此你怎么看？

Richard Sutton：首先，计算资源的扩展不仅推动了人工智能的发展，还推动了其他科学、工程领域的发展。计算资源的扩展深刻地影响着我们这个时代，几乎所有科学领域都受到了大规模计算资源和更普遍的常规计算资源的深刻影响，世上不存在脱离计算资源而独立发展的科学领域。众所周知，AI需要计算资源以创造有用的事物并理解思维。

摩尔定律是指，随时间推移计算能力将呈指数级增长，而成本则相应下降。每隔两年或18个月算力就会翻倍，这种状态会在近百年内一直持续。随着计算能力的指数级增长，每十年左右就会出现质的飞跃，从而给技术和应用带来根本性变化。

对于那些致力于连接系统（connectionist system）或分布式网络（即神经网络）的人来说，学习是重要的，因为智能需要大量算力。然而，当时这些系统受到了可用计算能力的限制。

其次，长期从事人工智能研究的人对这种指数增长并不意外，这是可预期的。这种指数增长具有自相似性（self-similar），也就是说，这种增长在每个时间点上看起来都是一样的，每隔一年半算力就会翻倍，这种增长是爆炸性的。

因此，我们所说的奇点（singularity）实际上是指计算能力的缓慢爆炸性增长，这种增长正深刻地改变着世界。

Craig Smith：你的工作主要集中在强化学习领域，撰写了有关强化学习、时序差分学习和Lambda等方面的著作，这似乎是一个更为雄心勃勃的计划，Transformer扩展的成功是否影响了你的决定？

Richard Sutton：阿尔伯塔计划或许比上述书籍的目标更为宏大。在人工智能领域，我们一直致力于理解并在计算机中复制整个思维过程，这是一个极具雄心的目标。

至于语言大模型，它们在某种程度上有些让人失望。尽管人们对语言大模型感兴趣，并愿意深入学习，但我并不认为这是最值得追求的方向。我更感兴趣的是行动、目标以及智能体如何判断真实性等方面，这些正是语言大模型所欠缺的。语言大模型能够处理复杂的任务和大量数据，向人们展示了计算、网络和学习的潜力，它只是给那些需要看到这些潜力的人展示了这些能力。

2

AI的下一步：经验学习与具身化

Craig Smith：无论最终创建了何种智能体，是否仍然需要一种语言接口来进行交流？

Richard Sutton：是的，但我不确定当前的语言大模型是否有助于实现这一目标。

Craig Smith：也就是说，你想要构建的模型或智能体会将语言学习作为学习过程的一部分。

Richard Sutton：是的，但语言是我们考虑的最后一个因素，而非首要因素。正如Yann LeCun所说，在尝试实现人类水平的智能之前，我们需要先达到老鼠和猫的智能水平，即在追求更高级别的智能之前，我们需要先了解和掌握更基本、更简单的智能形式。

Craig Smith：你已经掌握了强化学习，能够构建智能体，有各种不同的架构可以从各种感官输入中创建表示，然后高效地进行规划。那么，你的研究进展到了哪个阶段？

Richard Sutton：可以肯定地说，各个步骤并不是完全按顺序进行的。我们一直在寻找可以取得进展的机会，这个机会可能出现在第10步，也可能出现在第3步。总的来说，我们现在大致处于第4步。我们仍在修改基础的强化学习算法，这一步还没有完成，因为我们需要更高效的算法。我对最近我们正在开发的一些新想法感到很兴奋，这些想法可能会让我们更快地实现目标。

Craig Smith：可以谈谈这些新想法吗？

Richard Sutton：其中重要的一点是使用有效的off-policy learning（离策略学习）和重要性采样（importance sampling）。重要性采样指的是，观察在目标策略和行为策略下采取行动的概率，并根据这两者的比例调整回报。长期以来，我都认为这是调整回报的唯一方式，但现在我认为，通过改变期望可以进行回报的前向校正，所以如果你期望发生一件好事，期望采取一种好的行动，但实际上采取了另一种更具探索性的行动，这就与你的目标策略有所偏离，更为贪心。

考虑到与目标策略的偏离，一种方法就是承认现在所做的并非最佳，所以要调整水平，稍微降低期望，有一种系统性的方法可以实现这一点。这为我们提供了处理回报偏离的全新方式，因此也带来了一整套全新的算法。这真是令人兴奋。

我认为，现在最引人注目、最新颖的方向，就是持续学习：进行元学习、表示学习、学会如何学习、学会如何泛化、以及构建状态表示特征。这一整套过程将是一种全新的深度网络学习方式，我称之为动态学习网络（dynamic learning net）。动态学习网络通过三个层面进行学习，而通常情况下，神经网络只在一个层面上进行学习（只学习权重层面），而我们还希望它能够在步长（step size）层面上进行学习。因此，网络中的每个权重位置都会有一个步长。

步长有时被称为学习率（learning rate），但称之为步长更好，因为学习率会受到许多其他因素的影响。如果我们想象整个网络，所有这些权重旁边都有一个步长，这个步长通过一种自适应过程调整，这种调整是以一种元学习的方式进行的，以元梯度的方式朝着使系统更好地学习而调整，而不仅仅是在某一瞬间表现更好。学习率或步长并不会影响函数，它们不会影响某个特定时间点实现的某个函数，它们影响的是网络的学习。因此，如果你能调整步长，你也将学会学习、学会泛化等等。

除了以上提到的自适应权重和步长，最后一个要适应的是连接模式（connection pattern），即谁与谁相连。这将通过一种增量过程来实现。例如，从一个线性单元开始学习一个值、函数或策略。它会尽力利用现有的特征，然后引发新特征的生成，因为你需要学习原始信号的非线性函数，所以需要创造出对该线性单元可用的新特征，以一种有机的方式逐渐发展出一个能够学习非线性函数的系统。因此，这只是以一种不同的方式得到一个深度网络，其中包括所有特征和动态学习网络。

Craig Smith：那么，输入数据来自哪里？

Richard Sutton：输入数据和强化学习源于生活，来自我们如何做事以及看待事物的方式，并不存在标记好的数据集。我称之为经验性人工智能（experiential AI）的整个概念中没有人会提供数据。你就像婴儿一样成长，边玩边看，再进行实践，这就是数据来源。而强化学习的诀窍在于，如何将这种类型的数据转化为你可以学习和培养心智的事物？

监督学习的美妙之处和局限性就在于，我们通常假设已经有一个标注好的数据集，能够解决这个子问题。这是个好主意，我们先解决一个子问题，搞清楚之后再转向下一个问题。但实际上我们必须转向下一个问题，我们必须考虑数据集是如何从训练信息中自动创建的。数据集这一术语实际上充满误导性：暗示着拥有数据集、存储数据集以及选择数据集都很容易。但实际上，生活中发生的所有事，以及你做的所有事，都是瞬息即逝的，你无法记录，且记录这一切不仅极其复杂，也极具价值。

这在强化学习和监督学习中则完全不同，尤其是我所考虑的方式。许多人通过创建一个缓冲区或记录所有已保留的经验来进行强化学习，这些经验至少在某个时间段内发生过，我认为这种方法很有吸引力，但并不是答案。真正的答案在于，接受数据稍纵即逝的本质，利用它发生当下的最大价值，然后就随它去。

Craig Smith：这就是为什么你想要创建一个具备全部五官甚至更多感官的实体系统，用于输入数据。那么，你在实验阶段使用的是图像还是视频？

Richard Sutton：没错，你需要一个具身化的系统，一个可以影响其输入流和感知流的交互式系统，这样互动就可以持续很长一段时间。你可以在模拟中实现这一点，也可以通过机器人技术做到这一点。我还不知道哪种方法是最好的，也许可以两者兼用，或者先用一种方法，再用另一种方法。John对从视频中学习很感兴趣，他的观点是可以通过大量的视频流实现，例如你正在观看500个电视频道，就可以在各个频道之间不断切换。

在Keen Technologies团队中，我的同事Joseph持有不同的看法。他对机器人技术很感兴趣，他认为获取适当的数据流的最佳方式实际上是构建机器人硬件。因为世界十分广阔而复杂，我们要解决众多的复杂问题，所以需要视频和大型数据流等等。而现在，可以通过模拟来生成视频流、模拟视频，但不可避免地，这些模拟出的世界实际上相当简单。其中的物体可能是三维结构，看起来是一种非常特殊的几何形式，由它们构成生成的虚拟世界。

这个虚拟世界相对智能体来说是相对简单的。他们的目标应该是将大部分计算能力用于处理思维，仅留一小部分用于创建模拟数据，而这恰恰相反。事实是，每个人可能都有一个复杂的大脑，但他们所处的世界则要复杂得多，不仅因为世界包含了所有物理法则和物质，而且还包括其他的思想、其他的大脑以及其他思想，而这些思想中所发生的事都很重要。

因此，本质上来说，现实世界比智能体要复杂得多，而当我们致力于模拟世界时，则本末倒置了，这令人担忧。无论如何，以上是使用模拟或物理世界之间需要权衡的一些问题。

Craig Smith：尽管如此，你需要先开发出架构和算法，然后再担心数据流。

Richard Sutton：是的，但你需要开发正确的算法，如果你正在处理的世界并不代表你的目标世界，那可能会产生误导。我的工作总在关注一些问题，所以会制定一个非常简单的问题实例，比如一个五种状态的世界，然后对其进行深入研究。但我并不试图利用其简单性，我研究的算法在某种意义上甚至比经简化的世界还要简单，我会重点研究这些算法并观察其能力。

因此，简化世界并充分理解始终是我研究的一部分，就像物理学家可能会假设一个简化的世界，让一个球沿着斜坡滚动，消除了摩擦力和其他种种影响。

3

为更智能的未来而设计算法

Craig Smith：你是否关注Alex Kendall在自动驾驶公司Wayve的工作？他们有一个GAIA-1世界模型，从实时视频中对表示进行编码，并根据这些表示进行规划，从而通过表示空间控制汽车。这与Yann LeCun正在做的事很相似。

Richard Sutton：GAIA-1相当了不起。我想列举一些看似自然但实际是错误的观点。在我看来，错误之一就是尝试制作世界的物理模型，或者试图制作能够模拟世界并生成视频帧的模型。你所需要的不是未来的视频画面，这并非你思考问题的方式。相反，你只是想：“哦，我可以去市场，也许会有草莓。” 你并不是在创造视觉视频，而是在思考着去市场，而草莓的大小和位置可能会不同，即使没有视频，这是一个关于如果你去市场会发生什么的想法。人们已经意识到了这一点，比如Yann Lecun曾经谈到生成未来的视频，然后他意识到这种视频会很模糊，现在他意识到你需要产生模型的结果，这些结果与视频流或观察完全不同。

它们就像是行动的结果所构建的状态。因此，这与世界的偏微分方程模型完全不同，也与自动驾驶汽车公司的出发点截然不同。自动驾驶汽车公司从物理学和几何学出发，并由人类的理解、工程师对世界和驾驶的理解进行校准，但我怀疑这将会改变。我并没有研究自动驾驶，但特斯拉这样的公司从工程模型开始，我现在认为，他们正在构建更多基于人工神经网络的概念模型。因此，他们不是从几何学和已知事物出发，而是通过获取大量数据并对其进行训练来构建模型。

我们需要一个在高层次结果上的模型，而不是在低层次像素和视频上的模型。因此，一种方法是通过具有更高级别的状态特征来实现。比如判断这是一辆汽车，而不是一帧视频。因此，你基本上需要在状态和时间上都进行抽象。状态上的抽象就像我刚才提到的，到市场时会有草莓；而时间上的抽象是指，我可以去市场，可能是20分钟后，其他则保持不变或以自然方式相关联。因此，我们希望模型能够考虑到我可以去市场的问题，还希望模型能够考虑后果，比如可以拿起可乐罐，可以动一下手指，这将产生某些后果。

我们知道的所有事在不同的尺度上都存在着巨大差异。去市场需要20分钟，接受新工作可能需要一年，决定研究一个课题也可能需要一段时间。此外，我们可能会花时间思考并分析后果。比如，你今天想见我，我们安排一次会面。而在某些情况下，这是你经过几周甚至几个月的计划，我们通过规划和交换高层次的信息来筹备这次会面。把所有这些都想象成我们可能用眼睛看到的视频，或可能听到的音频信号，是愚蠢且片面的。

我们需要在时间和状态上进行抽象的模型。作为一名强化学习研究人员，我自然而然地转向了一系列特定的技术来实现这一点。这一预测是基于时间差分学习的多步预测，而规划是通过动态规划完成，本质上是价值迭代，但其中的步骤并非低层次的动作，而是被称为选项，它们是高层次的行为方式，可以终止。因此，部分选项，比如去市场，当你到达市场时会终止。在某个概念层面上，我们清楚地知道我们想去的方位。对我来说，使用抽象模型在时间和状态上构建选项和特征十分清晰。

最近，我们在Artificial Intelligence Journal上发表了一篇论文，探讨了使用子问题进行规划的概念，其中包含了STOMP的进展，STOMP代表子任务、选项、模型和规划。将所有这些内容结合起来，就能从数据流到抽象规划完成整个进程，这就是我们正在努力实现的目标。

Craig Smith：回到GAIA-1模型。它的输入是视频，创建了一个表征，并在表征中规划和采取行动。你可以将其解码成视频以查看它的操作，但并不是在视频空间中进行规划。你对此有什么期待？按照你的roadmap，你是否会开发需要扩展的强化学习算法，然后通过计算对其进行扩展？

Richard Sutton：我们想要了解思维是如何运作的，然后我们将创造一个思维，或者一定程度的思维，这将在各种层面产生价值，包括经济层面。它也有助于我们扩展自己的思维能力。如果我们能理解自己的思维是如何工作的，就可以加以扩展，使其表现得更好。

因此，关键的一步在于理解思维，然后就会有成千上万种用途。我认为，这不会简单地使worker成为我们所指挥的奴隶，这也许是潜在效用的下限。

正如我们在Keen所做的工作，如果能制造一个虚拟的worker，用处会很大。我们日常所做的许多工作并不需要实际出现机器人，因为许多工作只是在处理信息，通过视频接口就可以完成大部分工作。

那么，为什么不能制造出扮演人类角色的能力超群的worker？我认为将会有更多有趣的事可以做。至于应该怎么做，就是丰富的哲学问题和经济上的实际问题范畴。因此，最重要的是理解思维的运作方式。

4

阿尔伯塔计划与AGI之路

Craig Smith：我曾与Transformer的作者之一Aidan Gomez进行过一次有趣的对话，他现在创办了自己的公司Cohere。他认为，虽然Transformer算法在可扩展性方面表现出色，但并不是唯一选择，社区支持任何一种算法都可能会成功。Aiden Gomez认为，Transformer算法的本质是一种带有注意力机制的多层感知器结构，通过大量的数据训练，能够学习理解语言，但这种基于语言的方法存在明显的局限性。

过去几年，我经常和Yann LeCun谈论世界模型，在我看来，这种基于世界模型的方法比基于语言的方法更为激动人心，因为智能不仅体现在语言中，甚至可以说其中大部分都没有体现在人类的文字中。随后，我了解到阿尔伯塔计划（Alberta Plan），你们的目标是构建一个具有世界模型的智能体，或者通过与环境的交互来创建世界模型，该计划与Yann LeCun的方法有何本质区别？

Richard Sutton：这两种方法非常相似，比较Yann LeCun的方法和阿尔伯塔计划可以发现，它们在架构方面基本可以一一对应。虽然这两种方法的具体实现略有不同，但目标和核心概念是相似的。专注于两种方法的差异可能会分散注意力，忽略更重要的信息，即实现智能需要明确的目标和一个世界模型，并利用这个模型来制定行动计划以实现目标。

在我看来，智能的本质是理解世界，并利用这种理解来实现目标。我倾向于将目标形式化为奖励，其他人可能对这种方法持怀疑态度，甚至认为这种方法有些低级，但我认为这是一种自然的方法。对于不熟悉深度学习和监督学习的人来说，将目标表达为奖励更容易理解和接受。

Craig Smith：阿尔伯塔计划为什么以监督学习为出发点？这样做更容易吗？

Richard Sutton：从某种意义上是这样的，因为我们想专注于持续学习。顾名思义，持续学习就是要不断地学习，学习过程在任何时候都不间断。然而，即使对于监督学习来说，使用非线性网络进行持续学习的初始步骤仍然具有挑战性，但相比之下，监督学习涉及到的其他因素最少，因此，这是一个自然而然的选择。

在过去几十年里，监督学习和强化学习之间一直存在竞争。由于学习方法的资源有限，监督学习的关注度较高，而这对强化学习构成了一定挑战。监督学习之所以胜出，是因为它更容易实践，更易于使用。尽管监督学习相对来说野心更小，但它却非常重要。那些从事强化学习或尝试构建整体智能体架构的人，都需要依赖监督学习的输出结果作为整体架构的组成部分。因此，我们需要监督学习，并且可以对其进行研究和调整，以满足目的。

Craig Smith：在一段时间里，强化学习和监督学习似乎占据主导地位。而现在，基于Transformer的生成式人工智能处于主导地位，但在监督学习占据主导的阶段存在争论，认为更高层次的知识都源自监督学习，而现在也仍是监督学习。

Richard Sutton：在生成式人工智能语言大模型中，更高层次的知识仍然源于监督学习。通过下一个词元、下一个单词进行训练，是正确的。

Craig Smith：你经常提到的类比是，一个孩子看到大象，母亲说那是一只大象，孩子很快就能进行泛化并认出其他的大象；也许孩子会犯错，母亲会纠正并说那是一头牛，这经常被作为监督学习的例子，但也许这是强化学习，也许是母亲因为孩子记住了标签而夸奖他的奖励。

Richard Sutton：关键是孩子在此之前已经形成了良好的概念以及类别概念。当母亲说那是一只大象时，孩子已经在很大程度上理解了。你知道空间是什么，物体是什么，以及正在被标注的事物。标签是其中最不重要的部分，孩子已经学会了所有最有趣的部分，也就是拥有动物、运动物体和物体在其世界中所代表的含义。

Craig Smith：人们已经开始使用强化学习来构建智能体并利用语言大模型和知识库来执行知识型任务。你所说的不仅仅是语言型任务或知识型任务，而是物理规划和物理任务。

Richard Sutton：关键在于设定目标。例如，你有一个助手帮你规划一天，安排一天的工作或为你完成任务，助手最重要的部分可能就是理解所涉及的目标。

语言大模型并没有真正理解它们的目的，只是表面上似乎做到了这一点，但特殊情况总是会出现。如果一个人工智能系统在一段时间后做出不符合的目标，那将不会成为一位有用的助手。因此，语言大模型虽然非常有用，但它们同时也存在相当严重的局限性，这并不是批评。

Craig Smith：能否分享一下阿尔伯塔计划的进展？

Richard Sutton：阿尔伯塔计划旨在将智能视为一种学习现象，即理解环境并通过对环境的驱动来实现目标。在该计划的第一步，重点是建立智能体与环境之间的结构和交互形式。这种交互不是简单地交换状态，而是通过观察来进行，这些观察可以来自各种感官，如视觉、触觉和听觉。这些观察是真实的，而不是简单的状态，因为我们无法直接获取状态。

阿尔伯塔计划的首要原则是智能体与环境的互动。第二原则是持续学习。阿尔伯塔计划具有时间上的一致性和对称性，也就是说没有特定的训练和测试阶段，在这个持续不断的过程中，你可能会获得想要的奖励（也可能不会），同时还会得到观察。这个过程并没有专门的指导老师，智能体只能通过在经验中获得的奖励和惩罚来调整自己的行为。

阿尔伯塔计划的另一个重点是：智能体将建立模型，并根据这个模型进行规划。这包括两种学习方式：一种是通过试错学习直接从经验中获得知识，另一种是学习建立模型，然后利用该模型进行规划和决策。这两种学习方式都是智能的重要组成部分。

上述是背景介绍，阿尔伯塔计划有12个步骤。这12个步骤的第一步是确保学习是连续的，然后是元学习，即学习如何学习。不仅仅是学习一种技能，而是在不断学习的过程中积累各种经验，从中变得更加擅长学习。我们可以利用这些不断重复的学习经验来提高未来的学习效率。因此，在这个过程中，我们会学到各种技巧和方法，比如表示方法、特征以及学习步骤的大小。接着是持续学习和各种算法，一旦我们将元学习、持续学习和监督学习结合起来，就可以扩展到强化学习，其中包含更多有趣的时间关系。

阿尔伯塔计划的前六个步骤是构建强化学习的基本算法，并通过不断回顾和完善，使其成为持续学习和元学习。然后，再引入一些挑战性问题，如离策略学习（learning off policy）和学习世界模型以及规划。最后一步是智能增强（IA），即将计算机人工智能与我们自己的思维结合起来，以增强我们的思维能力。

在阿尔伯塔计划中，离策略学习和学习世界模型是其中的关键步骤之一。离策略学习意味着智能体能够学习未完全执行的任务或行为。例如，即使是识别一个物体，也需要观察并以客观的方式定义其特征，而子问题是这一任务的最佳处理方式。

阿尔伯塔计划最具特色的策略是将大问题分解为许多子问题，并同时处理这些子问题。尽管智能体的主要目标是获得奖励，但它同时也会处理许多其他子问题。由于智能体无法同时处理所有子问题，因此需要选择一个主要问题，而其他子问题则通过学习来解决，离策略学习是高效学习世界模型的关键。

Craig Smith：你提出的部落架构（horde architecture）是否是指将问题分解为多个子任务并进行学习？

Richard Sutton：部落架构是我们在一篇论文中提出来的。部落指的是一系列子问题，其中每个demo类似于神经网络中的单个神经元，专注于解决不同任务或预测不同结果。部落架构将思维看作是去中心化的，但所有部分最终都朝着一个目标努力。这种结构可以驱动不同部分，是一个很有用的结构。

5

与John Carmack的Keen Technologies合作

Craig Smith：你与John Carmack（电脑游戏领域的传奇工程师）的合作是否出于资金方面的考虑？毕竟Yann LeCun的背后是Meta。

Richard Sutton：这两者并不能相提并论。尽管John的公司很棒，但它只是一家价值2000万美元的公司，这对于我们目前的需求来说已经足够了。我和John联手是因为我们对实现通用人工智能的方式有着相似的想法。我曾读过一篇关于John的新闻报道，尽管我们的背景有所不同，但感觉他的思考方式与我很相似。

当谈及智能时，我们需要明确一些基本原则，而不是设计一个包含一千万行代码的庞大程序。全球范围内筹集用于基础研究的资金仍然很困难，但AI应用的资金相对容易获得，特别是针对语言大模型的资金。

总之，我非常享受在Keen的工作，在这里我能够专注于自己的想法，Keen的工作氛围非常平静，大家会花很多时间思考和反思，除此之外，还会进行一些实验。对我来说，能够重新整理我的思绪，并仔细思考它们，推动它们向前发展非常重要。

Craig Smith：Keen是否在执行阿尔伯塔计划？

Richard Sutton：阿尔伯塔计划是一个五年研究计划，而非执行项目，研究不会总是按照人们的期望进行。

Craig Smith：你们在Keen的工作是否受到了阿尔伯塔计划的启发呢？

Richard Sutton：是的，毕竟我正在研究阿尔伯塔计划。

Craig Smith：Keen的最终目标是否是创建阿尔伯塔计划中描述的具身智能体？

Richard Sutton：按计划实现的几率很大，但不能百分百确定，毕竟计划赶不上变化，但不论结果如何，我们必须做出决策，并认真考虑，因为我们很有可能是正确的。

6

关于AI安全和AGI实现的辩论

Craig Smith：你是否对人工智能感到担忧？是否赞同关于其威胁论观点？

Richard Sutton：那些悲观者不仅是错误的，更充满了盲目的偏见。这种偏见让他们无视正在发生的事。本质上来说，人工智能是一种广泛适用的技术，它不同于核武器，也不同于生物武器。它可以被用于各种领域，我们应该对其善加利用。总会有人将其用于不良用途，这很正常，正常的技术也可能被好人或坏人使用。

那些悲观者则认为，这种技术有问题，就像核武器一样存在威胁，他们被这种隐喻所蒙蔽，认为人工智能会找上门来置人于死地，这纯属荒谬。悲观者其实并没有提出他们所相信的合乎逻辑的理由，因此很难与他们争辩。也许合理的看法是认为他们有偏见且目光短浅。

Craig Smith：John Carmack说2030年可能实现AGI，到时会发生什么？也许到了2030年人们都不会记得他说过这个时间。

Richard Sutton：这个时间点提出很长时间了，不会被淡忘。对于计算机性能达到人类规模的数量，一直以来的时间点都是2030年，但无论如何，2030年对我们来说是一个合理的目标，我们需要理解一切才能创造出真正的思维。

这个目标很有意义，我一直说，2030年有25%的机会实现真正的人类水平的智能。25%的可能性看似不高，但这已经是足够大的概率了，有雄心壮志的人应该朝着这个目标努力，并努力使之成为现实，而且这取决于我们的行动，我们应该努力做到这一点。

目前，正在发生的一件大事是，公众正逐渐认识到理解思维和创造有思维的事物意味着什么，这是世界观的一次重大转变，我们需要各领域人士的帮助，让我们更容易理解在实现人类水平的智能时发生了什么。