新智元报道
编辑:alan
【新智元导读】AI x 机器人正逐渐走上时代的风口,近日,谷歌DeepMind以及英伟达两家AI大厂都在机器人领域有所动作。
AI x 机器人必然是今年持续火爆的一条路线。
近日,谷歌DeepMind以及英伟达两家AI大厂透露了自己在机器人相关领域的进展。
Jim Fan近日在推上表示正在与自己的老朋友Yuke Zhu合作,共同创立一个名为GEAR的新研究小组,来进行「Generalist Embodied Agent Research」:
「我们相信,在未来,每台移动的机器都将是自主的,机器人和模拟代理将像iPhone一样无处不在。我们正在构建一个具有通用能力的人工智能,可以学习在许多虚拟和现实世界中熟练地行动。」
Jim Fan将2024年称为机器人年、游戏AI年和模拟年。
「我们正在着手执行登月任务,到达那里将带来大量的学习和突破。」
面对英伟达的「登月」,谷歌DeepMind拿出的是一条狗:
将人机交互表述为一个部分可观察的马尔可夫决策过程(其中人类语言输入是观察,机器人代码输出是动作),那么训练完成先前的交互可以被视为训练LLM一个过渡动力学模型——它可以与经典的机器人技术(如模型预测控制(MPC))相结合,以发现更短的成功路径。
研究人员对Palm 2-S进行了微调,使机器人能够更快地从人类互动中学习,与传统的RAG和LMPC-Skip相比,新方法在可教性方面实现了最大的改进。
GEAR
GEAR的官方页面展示了4个有趣的项目:
Eureka
GPT-4能教机器人转笔吗?看看下面的视频,是不是6的飞起?
这个开放式Agent名为Eureka,为使机器人到达超越人类的灵巧性而设计奖励机制。
Eureka弥合了高级推理(编码)和低级电机控制之间的差距。它是一种混合梯度架构:一个黑匣子(LLM推理),指示一个白盒(可学习的神经网络)。
外部循环运行GPT-4来优化奖励函数(无梯度),而内部循环运行强化学习来训练机器人控制器(基于梯度)。
这是一款GPU加速的物理模拟器,可将现实速度提高1000倍。在10个机器人的29个任务的基准套件中,Eureka奖励在83%的任务上比专家人工编写的任务平均提高了52%。
Eureka 还支持一种新形式的上下文 RLHF,它能够将人类操作员的反馈纳入自然语言中,以引导和调整奖励功能。它可以作为机器人工程师设计复杂电机行为的强大助力。
论文地址:https://arxiv.org/pdf/2310.12931.pdf
代码地址:https://eureka-research.github.io/
Voyager
下面是训练Agent玩游戏,项目名为Voyager,以GPT-4为驱动,是第一个纯粹在上下文中玩Minecraft的终身学习代理:
Voyager通过编写,完善,提交和从技能库中检索代码来不断改进自己。
这就涉及到由GPT-4开启的一种新范式:训练是代码执行而不是梯度下降。
训练模型是Voyager迭代编写的技能代码库,而不是浮点数矩阵。这个无梯度架构将不断发展。
论文地址:https://arxiv.org/pdf/2305.16291.pdf
代码地址:https://github.com/MineDojo/Voyager
Voyager有3个关键组件:
首先,Voyager尝试使用流行的Javascript Minecraft API编写一个程序来实现特定目标。该程序在第一次尝试时可能不正确。游戏环境反馈和 javascript 执行错误有助于GPT-4完善程序。
其次,Voyager通过将成功的程序存储在向量数据库中来增量构建技能库。每个程序都可以通过嵌入其文档字符串来检索。复杂的技能是通过组合更简单的技能来合成的,随着时间的推移,增强了Voyager的能力。
第三,自动课程会根据智能体当前的技能水平和世界状态提出合适的探索任务,例如,如果智能体发现自己处于沙漠中,则先学习收获沙子和仙人掌。
MineDojo
MineDojo:将Minecraft变成AGI研究游乐场的开放框架。研究人员收集了 100000个YouTube视频、Wiki页面和Reddit帖子,用于培训Minecraft代理。
这项工作也获得了NeurIPS 2022的最佳论文。
Jim Fan认为,通才代理的出现有3个主要成分。首先,一个开放的环境,允许无限种任务和目标。地球就是一个例子,因为它足够丰富,可以锻造出一棵不断扩大的生命形式和行为之树。
其次,一个大规模的知识库,不仅教人工智能如何做事,还教人工智能做什么。GPT-3仅从网络文本中学习,但我们能否为我们的代理提供更丰富的数据,例如视频演练、多媒体教程和自由格式的wiki?
第三,代理架构足够灵活,可以在开放式环境中执行任何任务,并且具有足够的可扩展性,可以将大规模、多模态的知识源转换为可操作的见解。
Jim Fan表示,基础模型的未来将是积极主动采取行动、无休止地探索世界并不断自我完善的代理。
论文地址:https://arxiv.org/pdf/2206.08853.pdf
代码地址:https://github.com/MineDojo
VIMA
VIMA:第一款带有机械臂的多式联运LLM!引入了用于机器人学习的多模态提示。
多模态提示使用户的任务规范变得更加容易和灵活。通过单一模型,VIMA统一了各种任务,如视觉目标达到、视频演示的一次性模仿、新颖的概念学习和安全约束满足。
VIMA代表VisuoMotor Attention。它是一个 Transformer,在提示符中对一系列多模态token进行编码,并自回归地解码机械臂控制。
这项工作也在去年的ICML上进行了海报展示。
论文地址:https://arxiv.org/pdf/2210.03094.pdf
代码地址:https://github.com/vimalabs/VIMA
DeepMind的狗
论文地址:https://arxiv.org/pdf/2402.11450.pdf
如下图所示,给定一个用户用语言教机器人新任务的数据集(表示为在线上下文学习的文本输入和代码输出,图左),LMPC-Rollouts经过训练,以预测以当前聊天记录为条件的后续输入和输出(图中间),并使用MPC后退水平控制)进行推理时搜索,以返回下一个最佳操作(成功前的预期更正最少)。
LMPC-Skip是一种替代变体,经过训练可直接预测最后一个操作(图右)。两种LMPC变体都通过上下文学习加速了机器人的快速适应。
研究人员通过实验评估了各种提出的微调策略(缓慢适应)在多大程度上改善了人类的在线情境学习(快速适应)。
通过自然语言反馈交互式地教授,对78个机器人任务进行评估,包括5个机器人仿真案例和2个真实硬件实施。并特别探讨以下问题:
– 微调在多大程度上提高了可教性,尤其是在测试任务上?
– LMPC-Rollouts和LMPC-Skip如何比较?
– 顶级用户调节有什么好处?
– 微调是否能够实现交叉实施例泛化?
– 迭代微调能否进一步提高可教性?
论文中使用LMPC-Rollouts和LMPC-Skip对LLM进行了微调,提高了基础模型(PaLM 2-S)的可教性,并在所有实施例中都优于RAG基线。
从上图可以看出,LMPC-Skip过度拟合训练任务(左),而LMPC-Rollouts在多轮会话的测试任务(右)上推广得更好,也就意味着更易于教学和对反馈做出反应。
上面的结果表明,为了在实践中最大限度地提高性能,应该使用LMPC-Skip来响应初始用户指令,然后使用LMPC-Rollouts来响应后续用户反馈。
对于RAG,虽然该方法在总体成功率方面改进了基础模型,但在测试任务上,它实现的成功任务率低于基础模型。虽然RAG可能擅长提高与检索到的示例类似的任务的成功率,但它很难在新任务上表现出色。
参考资料:https://twitter.com/adcock_brett/status/1761814066748670071