静5青年讲座回顾 | 王鑫博士谈人机合作中的多模态智能体

1,385次阅读
没有评论

静5青年讲座回顾 | 王鑫博士谈人机合作中的多模态智能体

关键词:静5青年讲座

编者按

2023年9月19日,王鑫博士访问北京大学前沿计算研究中心,并在静园五院作了题为“Foundations of Multimodal Embodied Agents for Human-Agent Collaboration”的报告,介绍了他与合作者在人机交流合作的多模态具身智能上的研究。此报告由中心助理教授董豪老师主持。

静5青年讲座回顾 | 王鑫博士谈人机合作中的多模态智能体

王鑫博士报告现场

王鑫老师从具身智能的定义出发。具身智能是指可以感知环境、与人交户并在真实世界中实施行动的智能体。能力较强的智能体可以在人为干涉最少(给出一两句话的指令)的情况下完成任务,而能力较弱的智能体只能在人为指导下一步一步执行动作。对于在两者之间的智能体,我们可以让智能体与人进行即时的互动,以合作的方式完成任务。

人机合作的智能体包括三个方面:环境探索(navigation)、人机交流(communication)、实机操作(manipulation)。接下来王老师的讲座围绕这三个方面的工作展开。

静5青年讲座回顾 | 王鑫博士谈人机合作中的多模态智能体

首先,环境探索方面,一个基本的问题是在指定环境中寻找特定物体(object navigation),而在这个问题中比较具有挑战性的一个分支是零视物体寻找(zero-shot object navigation),智能体需要寻找一个它在训练时没有见过的物体。这个任务要求模型具有较高的泛化性。同学们也对这个问题同王老师展开了讨论。

静5青年讲座回顾 | 王鑫博士谈人机合作中的多模态智能体

为此,王老师的团队提出利用常识来对环境探索施加限制,完成高效的物体寻找(ESC: exploration with soft commonsense constraints,ICML2023)。该方法首先使用预训练的 GLIP 模型来实现目标检测和语义信息解读,然后利用现有的大语言模型来提供环境探索的偏好,同时利用 PSL(Probabilistic Soft Logic)施加一系列的规则对候选物体进行筛选,得到最终的预测结果。

静5青年讲座回顾 | 王鑫博士谈人机合作中的多模态智能体

其次,人机交流方面,随着 ChatGPT 代表的大语言模型兴起,使用对话的方式来指导智能体行动也有了落地的可能。对此,王老师的团队在无人机的操控任务上提出结合视觉信息和人机对话来实现特定地点的搜寻(Aerial Vision-and-Dialog navigation,ACL 2023)。同时团队也收集并制作了 AVDN 数据集,包含超过3000个无人机飞行轨迹记录以及在飞行过程中操控者模拟的人机交互对话。

静5青年讲座回顾 | 王鑫博士谈人机合作中的多模态智能体

实机操作被视为具身智能中的“最后一公里”问题。当智能体通过感知环境规划自己的行动之后,就需要借助对应的机械设备在真实世界中完成指定的动作。延续在无人机任务上的想法,王老师团队制作了结合视觉信息与语言信息辅助操作的数据集(VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation,NeurIPS 2022)。在此基础上,王老师提出了一个操作的自动化求解系统(Automatic Manipulation Solver),能够将原始任务分解为若干个原子任务,再依次执行。


在讲座的结尾,王老师谈到了他对未来工作的展望。除了人机合作式智能体的进一步发展,王老师还关注到了以人为中心、侧重于隐私保护、安全性和透明性的智能体构建。这类智能体能够满足更多的应用场景,使具身智能真正走向家用。讲座在听众们的热烈掌声中结束。

报告回放:

静5青年讲座回顾 | 王鑫博士谈人机合作中的多模态智能体

图文 | 黄蔚尧

往期讲座

静5青年讲座回顾 | 王鑫博士谈人机合作中的多模态智能体

静5青年讲座回顾 | 王鑫博士谈人机合作中的多模态智能体

—   版权声明  —

本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。

静5青年讲座回顾 | 王鑫博士谈人机合作中的多模态智能体

“阅读原文”转报告回放链接

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 9 月
 123
45678910
11121314151617
18192021222324
252627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...