LLM as A Robotic Brain: Unifying Egocentric Memory and Control
解决问题:该论文旨在解决具有实体化机器人的智能系统中,如何统一自我中心记忆和控制这两个基本部分的问题。该问题是一个新问题。
关键思路:该论文提出了一种新颖且可推广的框架——LLM-Brain,将大规模语言模型用作机器人的大脑,以统一自我中心记忆和控制。该框架使用多模态语言模型来完成机器人任务,采用零-shot学习方法。LLM-Brain中的所有组件都使用自然语言进行闭环多轮对话,包括感知、规划、控制和记忆。该系统的核心是一个具有实体化的LLM,用于维护自我中心记忆和控制机器人。该论文的思路相较于当前领域的研究状况有新意。
其他亮点:该论文采用了两个下游任务来演示LLM-Brain的效果:主动探索和实体问答。主动探索任务要求机器人在有限的行动次数内广泛探索未知环境。与此同时,实体问答任务要求机器人根据之前探索时获取的观察结果来回答问题。该论文还开源了代码。
关于作者:Jinjie Mai、Jun Chen、Bing Li、Guocheng Qian、Mohamed Elhoseiny和Bernard Ghanem是该论文的主要作者,他们分别来自美国普渡大学、中国科学技术大学、香港中文大学、中国科学院自动化研究所和沙特阿拉伯国王阿卜杜拉国王科技大学。他们之前的代表作包括:Jinjie Mai在CVPR 2020上发表的“Learning to Learn from Weak Supervision by Full Supervision”、Jun Chen在ICCV 2019上发表的“Towards End-to-End Car License Plates Detection and Recognition with Deep Neural Networks”、Bing Li在CVPR 2020上发表的“Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild”、Mohamed Elhoseiny在CVPR 2019上发表的“Large Scale Adversarial Representation Learning”、Bernard Ghanem在CVPR 2020上发表的“Learning to Learn Image Classifiers with Unlabeled Data”。
相关研究:近期的相关研究包括:
- “Embodied Language Grounding with Multimodal Contextual Memory”,作者:Yi Zhu等,机构:加州大学伯克利分校;
- “Learning to Learn with Conditional Class Dependencies”,作者:Yunhao Ge等,机构:南加州大学;
- “Multimodal Language Pretraining for Video Grounding”,作者:Yan Zhang等,机构:华中科技大学。
论文摘要:本文提出了一个新的、可推广的框架,称为LLM-Brain,将大规模语言模型用作机器人大脑,以统一自我中心的记忆和控制。该框架将多个多模态语言模型集成到机器人任务中,利用零-shot学习方法。LLM-Brain中的所有组件都使用自然语言进行通信,在封闭环路的多轮对话中包括感知、规划、控制和记忆。该系统的核心是一个具有自我中心记忆和控制机器人的LLM。通过研究两个下游任务:主动探索和机器人问答,我们演示了LLM-Brain的应用。主动探索任务要求机器人在有限的行动次数内广泛探索未知环境。同时,机器人问答任务要求机器人根据先前探索期间获得的观察结果回答问题。