GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

6次阅读
没有评论

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

OpenAI副总裁点赞DeepSeek贡献

鹭羽 发自 凹非寺

量子位 | 公众号 QbitAI

在某种程度上,GPT-5可以被视作是o3.1。

该观点出自OpenAI研究副总裁Jerry Tworek的首次播客采访,而Jerry其人,正是o1模型的主导者之一。

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

在他看来,相比GPT-4,GPT-5更像是o3的迭代,而OpenAI接下来要做的,就是再创造一个“o3奇迹”——构建能力更强、思考时间更长、能自主与多系统互动的模型。

在长达一小时的访谈中,Jerry Tworek侃侃而谈自己对GPT系列模型的思考。

从o1到GPT-5的模型演变历程讲起,介绍OpenAI的模型推理过程、公司内部架构、强化学习对OpenAI的意义,中间还穿插了他个人进入OpenAI的经历,以及对OpenAI未来走向AGI的想法。

如果向10年前的人展示今天的ChatGPT,他们可能会称之为AGI。

另外,他也着重肯定了DeepSeek提出的GRPO算法贡献,推动了美国RL研究。

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

有趣的是,当他谈及自己也是ChatGPT的重度“发烧友”,每月都会花200美元充值在上面时,网友发现了华点:

万万没想到,OpenAI自家员工也要为ChatGPT付费。(doge)

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

不过有一说一,这场访谈的知识密度爆炸,非常值得一看,连他本人在社媒发帖,也说:

如果你想要深入了解RL,那么这个播客不容错过。

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

GPT-5如何思考

主持人Matt Turk首先抛出了一个所有人都很好奇的问题:

当我们和ChatGPT聊天时,它们正在思考些什么?

简单来说就是,什么是模型的推理

Jerry Tworek当即一语中的,模型的推理过程类比于人类的思考,本质上都是寻找未知答案的过程,期间可能涉及执行计算、查找信息或自我学习。

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

推理过程具体表现在思维链上,自从OpenAI发布o1模型以来,这个概念开始变得广为人知。

它是将模型的思维过程用人类的语言口语化表述出来,整个过程就是:语言模型在大量人类知识上训练、学习如何像人类一样思考,然后通过思维链“翻译”回人类。

早期如果想要激发思维链,需要在提示词中描述“让我们一步步解决它”,因为如果直接提问,模型可能会推理失败,但只要让它分步进行,它就会生成一系列思维链,并最终得出结果。

所以通常情况下,模型在推理中花费的时间越长,结果往往会更好

但OpenAI在实际用户反馈中发现,一般用户并不喜欢花费大量时间在等待上,这在一定程度上也影响了他们构建模型的决策路线。

现在OpenAI会同时将高推理模型与低推理模型通通都开放给用户,将模型思考时长的选择权交还用户,同时内部尝试编码启发式方法以找到合适的平衡。

而OpenAI推理模型的伊始还得从o1说起。

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

这也是OpenAI发布的第一个正式的推理模型。

不过作为o1的主要负责人,Jerry也相当坦诚地表示,o1主要擅长解决谜题,所以与其说它是真正有用的产品,更像是一次技术演示。

随后是o3的出现改变了这种局面,它也代表了AI发展过程中的结构性转变。

它是真正意义上有用的,能够熟练使用工具以及各种来源的上下文信息,并在寻求答案的过程中呈现出坚持不懈刨根问底的状态。

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

Jerry本人自己也是从o3开始完全信赖推理模型的。

所以从某种程度上讲,GPT-5更像是o3的迭代——o3.1,拥有一脉相承的思考过程。

在之后,OpenAI也会继续寻求下一个重大飞跃,即能力更强、思考更优,也更自主的推理模型。

加入OpenAI是自然而然的过程

但正是这样一个主导OpenAI推理模型的关键人物,Jerry Tworek最初进入这个领域却颇有一种命定感,独属于天才的灵光一现。

Jerry将这个过程比喻为一颗水晶的诞生,与生俱来想要从事科学研究的想法,在随后的学习工作生涯中逐渐明确,然后当OpenAI出现的那一刻,叮咚,时机已到。

而这一切还得从他儿时说起,Jerry在波兰长大,从小表现出超越同龄人的天赋,包括数学和科学,用他自己的话来说就是:

它们是自然而然适合我的东西。

18岁的时候想要成为一名数学家,于是进入华沙大学学习数学,渴望追求真理,但“叛逆”的他因为厌倦学术界的死板和严苛,放弃了这个理想。

为了养家糊口,他决定成为一名交易员,利用自己的数学技能谋生,曾在摩根大通的股票衍生品交易部门实习,随后又离职创立对冲基金。

几年之后,对交易工作再次感到厌倦的他,陷入了职业期瓶颈。

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

直到DeepMind的DQN智能体的出现打破了这一僵局,他被其中的强化学习深深吸引,此前他认为分类器其实并不智能,但DQN展示出学习复杂行为的能力。

于是在2019年他加入了OpenAI,但最开始他在里面从事的是机器人项目,专注于灵巧操作。而这个项目也正是OpenAI著名的“用机器人解决魔方”项目,是强化学习与仿真实体交互的代表作之一。

随后就是众所周知的领导o1项目、推动OpenAI模型能力进步,而目前他的主要工作内容是和其他研究人员交流,集思广益完善研究计划。

在OpenAI内部,据Jerry所说,工作结构相当独特,是自上而下自下而上的结合。

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

具体来说就是,公司整体专注于三到四个核心项目,集中精力押注,而研究人员在项目内部享有相对自下而上的自由。

整个研究部门总计约600人,但每个人都知道项目的所有内容,因为在OpenAI看来,让研究人员因为无法获取全部信息而不能做出最佳研究,这个风险远高于知识产权泄漏

而OpenAI之所以能够快速发布产品,一年时间就从o1到GPT-5,归根结底是因为他们拥有良好的运营结构、巨大的发展势头,以及顶尖人才的高效产出,他们都相信自己所做工作的意义:

AI在历史上只会被构建和部署一次。

另外员工们也会大量使用内部工具,Jerry自己就是ChatGPT的深度用户,每个月都会为其支付费用,另外例如CodeX也被广泛应用在内部的代码编写中。

RL对OpenAI的关键一击

对Jerry本人来说,强化学习是引领他走进OpenAI的钥匙,而放眼看OpenAI整个公司,RL也是多次转折的关键。

今天的语言模型可以被认为是预训练和强化学习的结合:先进行预训练,然后在其之上进行强化学习,二者缺一不可。这也是OpenAI自2019年起的研究计划核心。

不过要想进一步了解RL在OpenAI的地位,首先要先清楚什么是RL。

Jerry认为,RL类似于训练狗,当狗表现良好时,可以给予“奖励”(零食或微笑),当狗做错事时,给予“惩罚”(例如转移注意力、表达不悦情绪)。

RL就是在模型中提供类似作用,如果模型的行为正确就给予积极奖励,反之行为不正确就给予负面奖励,其中的关键在于策略和环境:

  • 策略:指模型的行为,是一个将观察结果映射到行动的数学函数。
  • 环境:模型所看到的一切,必须是交互式的,而环境会根据模型的行动而演变,比如学习弹吉他时,会根据拨弦发出的声音获得反馈。RL就是教模型对环境变化做出反应的唯一途径。

随后DeepMind的DQN将RL带到了新的阶段——Deep RL,它将神经网络与强化学习相结合,诞生出真正有意义的智能体。

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

Jerry也分享了当年GPT-4刚训练完成的故事,那时内部团队对其表现并不满意,因为GPT-4在较长的回答中始终缺乏连贯性。

后续是通过RLHF(基于人类反馈的强化学习)解决了这个问题,即让人类对模型输出的内容提供反馈,并以此作为奖励。

也正是因为GPT-4碰到了RLHF,世界才拥有了“ChatGPT时刻”

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

最近OpenAI在编程竞赛中出乎意料的优异表现,Jerry说也是因为研究人员长期使用编程谜题作为测试平台,来尝试他们的RL想法。

无心插柳柳成荫,在他们研究RL的进程中,也为OpenAI带来了阶段性荣誉。

所以只要能够评估当前结果并计算反馈信号,RL就能应用在任何领域,即使答案不只是简单的对与错。

但目前要想规模化RL,还是很有难度的,因为RL在实际运行中会出现很多可能出错的地方,相比预训练会有更多的瓶颈和故障类型。

它是一个非常精细的过程,类比RL和预训练,就是制造半导体要比制造钢铁要复杂得多。

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

另外,Jerry也对DeepSeek团队提出的全新的强化学习算法GRPO(组相对策略优化)表示了认可:

GRPO的开源,让许多缺乏高级RL研究项目的美国实验室,可以更快地启动并训练推理模型。

RL+预训练才是通往AGI的正确道路

关于AI的未来,Jerry Tworek也在最后提出了自己的见解。

首先是Agent,Jerry认为AI带来的积极影响,是可以通过自动化解决人类问题。

模型目前提供答案的速度非常之快,大概需要几分钟,而他们内部测试显示,在某些任务上模型其实可以独立思考30分钟、1小时或者更久,所以当前模型遇到的挑战是如何建立合适的产品来部署长时间的思考过程。

其中由基础推理驱动的Agent能够允许模型更长时间的独立思考,并解决更为复杂的任务,例如编程、旅游预订、设计等,所以AI智能体化是大势所趋

模型对齐也是大众比较关心的问题之一,也就是引导模型行为符合人类价值观。

Jerry表示对齐问题本质上其实就是一个RL问题,要让模型深入理解其行为和可能导致的后果,才能让模型做出正确的选择。它将是永无止境的,因为对齐的概念将随着人类文明的演进而不断发展。

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

如果要通往AGI,当前的预训练和RL肯定是必不可少的,当然后续肯定需要添加更多元素一起发力。

Jerry明确反对当前业界一些关于“纯RL是通往AGI的唯一途径”的观点,他坚信:

RL需要预训练才能成功,而预训练也需要RL才能成功,二者缺一不可。

虽然对于AGI,他也很难描述,具体什么时候模型可以在没有大量外部输出和人类干预的情况下,实现自我改进。

但他相信,OpenAI目前走在正确的道路上,未来的变化将会是新的复杂组件的添加,而绝非完全推翻现有的架构。

参考链接:
[1]https://x.com/mattturck/status/1978838545008927034
[2]https://www.youtube.com/watch?v=RqWIvvv3SnQ

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy