OpenAI 联合创始人John Schulman演讲:来自人类反馈的强化学习

1,033次阅读
没有评论

伯克利大学校友、OpenAI联合创始人和ChatGPT首席架构师John Schulman发表了一篇关于支持ChatGPT的来自人类反馈的强化学习工作的讲演。Schulman表示,诚实是人工智能面临的最大问题之一,而强化学习是解决这个问题的最大方法之一。

John Schulman于2015年12月共同创立了雄心勃勃的软件公司OpenAI,不久在加州大学伯克利分校完成电气工程和计算机科学博士学位。在OpenAI,他领导了强化学习团队,该团队开发了ChatGPT——一个基于公司生成预训练(GPT)语言模型的聊天机器人——由于其能够产生非常人性化的反应,它已成为全球轰动。 

OpenAI 联合创始人John Schulman演讲:来自人类反馈的强化学习

伯克利新闻:你在加州理工学院本科时学习物理,最初来到加州大学伯克利分校攻读神经科学博士学位,然后转向机器学习和机器人学。你能谈谈你的兴趣,以及是什么导致你从物理学到神经科学,然后是人工智能吗?

约翰·舒尔曼:嗯,我对理解宇宙很好奇,物理学似乎是为此而研究的领域,我钦佩像爱因斯坦这样的伟大物理学家。但后来我做了几个物理学的暑期研究项目,对它们并不兴奋,我发现自己对其他主题更感兴趣。神经科学似乎令人兴奋,我也对人工智能感兴趣,但我真的没有看到一条我像在神经科学中那样想遵循的道路。

当我来到伯克利参加神经科学项目并进行实验室轮换时,我和Pieter Abbeel一起做了最后一个。我认为Pieter在直升机控制和毛巾折叠机器人方面的工作非常有趣,当我进行旋转时,我对这项工作感到非常兴奋,感觉我把所有的时间都花在上面。因此,我要求转到EECS(电气工程和计算机科学)部门。

你为什么选择伯克利读研究生?

我对此感觉很好,我喜欢在访问日与我交谈的教授。

我还记得我到达后的第二天去跑步,我沿着那条路向伯克利实验室走去,那里有一小群鹿,包括一些小鹿。大概是早上7:30,没有其他人出来。所以,那是一个伟大的时刻。

你在Pieter Abbeel实验室的早期项目是什么?

[Abbeel的]实验室有两个主要线索——外科机器人和个人机器人。我不记得这是谁的想法,但我决定与PR2[个人机器人2的缩写]打结。我相信[这个项目]是出于手术工作的——我们想为缝合打结,而我们没有手术机器人,所以我想我们只是想用PR2来尝试一些想法。这是一个移动机器人,它有轮子、两只手臂和一个头,上面有各种各样的小玩意儿。它仍然在Pieter的实验室里,但不再使用——它就像古董。

作为伯克利的一名研究生,你成为一种称为深度强化学习的人工智能的先驱之一,这种人工智能将深度学习(在大量数据上训练复杂的神经网络)与强化学习相结合,其中机器通过试验和错误进行学习。你能描述一下这个想法的起源吗?

在我做了几个机器人项目后,我开始认为这些方法不够强大——在现实世界中很难做任何真正复杂的事情,因为我们必须为我们试图制作的每个特定演示做这么多的工程。

大约在那个时候,人们使用深度学习和视觉获得了一些好的结果,每个从事人工智能的人都开始思考这些结果以及它们的意思。深度学习似乎可以通过训练大量数据来构建这些真正强大的模型。因此,我开始怀疑:我们如何将深度学习应用于机器人?我得出的结论是强化学习。

2015年底,当您还在伯克利完成博士学位时,您成为OpenAI的联合创始人之一。你为什么决定加入这个新企业? 

我想做人工智能研究,我认为OpenAI的使命雄心勃勃,并且已经在考虑人工智能(AGI)。当时谈论AGI似乎很疯狂,但我认为开始考虑它是合理的,我想去一个可以接受谈论的地方。

什么是通用人工智能?

嗯,这变得有点模糊了。你可以把它定义为人工智能,基本上可以在每个领域匹配或超越人类的能力。七年前,这个术语指向的很清楚,因为当时的系统非常狭窄。现在,我认为这有点不清楚,因为我们看到人工智能正在变得非常普遍,而像GPT-4这样的东西在很多方面都超出了人类的能力。

在过去,人们会谈论图灵测试是球场要射门的大目标。现在,我认为我们已经悄悄地超越了人工智能可以在人类层面进行多步对话的地步。但我们不想建立假装是人类的模型,所以这实际上不再是拍摄的最有意义的目标。

据我所知,ChatGPT背后的主要创新之一是一种名为人类反馈强化学习(RLHF)的新技术。在RLHF中,人类通过评估人工智能如何回应不同的询问来帮助指导人工智能的行为。你是怎么想到将RLHF应用于ChatGPT的?

好吧,关于这个问题的论文已经有一段时间了,但我想说,看起来与我们现在所做的相似的第一个版本实际上是OpenAI的一篇论文,“从人类偏好中进行深度强化学习”,其第一作者实际上是另一位伯克利校友Paul Christiano,他刚刚加入OpenAI安全团队。OpenAI安全团队一直致力于这项工作,因为这个想法是使我们的模型与人类的偏好保持一致——试图让[模型]真正倾听我们的声音,并尝试做我们想做的事。

第一篇论文不在语言领域,而是在雅达利和模拟机器人任务上。然后他们随后使用语言模型进行总结。那是在GPT-3完成培训的时候,然后我决定跟上潮流,因为我看到了整个研究方向的潜力。

当你第一次开始与ChatGPT互动时,你有什么反应?你对它的效果感到惊讶吗?

我想说,我看到模型逐渐改变和逐渐改进。一个有趣的细节是,在我们发布基于GPT-3.5的较弱型号的ChatGPT之前,GPT-4已经完成了培训。因此,当时,OpenAI没有人对ChatGPT感到那么兴奋,因为已经训练过这种更强大、更智能的模型。我们还一直在一群大约30或40个朋友和家人上测试聊天模型,他们基本上喜欢它,但没有人真正对此赞不绝口。

因此,我最终对它对公众的了解感到非常惊讶。我认为这只是因为它比他们以前互动过的质量相似的模型更容易使用。就幻觉较低而言,[ChatGPT]也可能略高于阈值,这意味着它制作的东西更少,自我意识更多。我还认为有一种积极的反馈效果,即人们互相展示如何有效地使用它,并通过看到其他人如何使用它来获得想法。

OpenAI 联合创始人John Schulman演讲:来自人类反馈的强化学习

 

ChatGPT的成功再次引发了人们对人工智能未来的担忧。您对GPT型号的安全性有任何担忧吗?

我想说,我们应该区分不同类型的风险。首先,还有滥用风险——人们会使用该模型来获得关于如何造成伤害的新想法,或者将其用作一些恶意系统的一部分。然后是危险转折的风险,人工智能将有一些与我们的目标不一致,并等待它足够强大并试图接管。 

对于滥用风险,我想说我们肯定处于存在一些担忧的阶段,尽管这不是存在风险。我认为,如果我们在没有任何保障措施的情况下发布GPT-4,它可能会通过让人们了解如何做各种坏事的新想法而造成很多问题,它也可能被用于各种诈骗或垃圾邮件。我们已经看到了其中一些,它甚至不是GPT-4特有的。

至于收购或背信弃义的风险,这绝对是我们要非常小心的事情,但这不太可能发生。现在,这些模型只是被训练成产生一条得到人类读者高度认可的单一信息,而这些模型本身没有任何长期目标。因此,模型没有理由想要改变外部世界的任何事情。有一些论点认为,无论如何,这可能是危险的,但我认为这些有点牵强。

既然ChatGPT在许多方面都通过了图灵测试,您认为人工智能的下一个前沿是什么?

我想说,人工智能在更艰巨的任务上会越来越好,过去由人类完成的任务将逐渐下降到能够由模型完美地完成,甚至可能更好。然后,会有人类应该做什么的问题——在任务中,人类可以拥有更多杠杆作用,在模型的帮助下做更多工作的部分是什么?因此,我想说,这只是一个自动化更多事情和改变人们正在做的事情的渐进过程。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy