斯坦福&谷歌等|面向机器人操纵的物理接地视觉语言模型

1,376次阅读
没有评论

Physically Grounded Vision-Language Models for Robotic Manipulation

J Gao, B Sarkar, F Xia, T Xiao, J Wu, B Ichter, A Majumdar, D Sadigh
[Stanford University & Google DeepMind & Princeton University]

面向机器人操纵的物理接地视觉语言模型

  • 现有的视觉语言模型在对日常物品进行物理推理方面的能力非常有限,这限制了它们在机器人操纵任务中的应用。

  • 提出PhysObjects数据集,包含36.9万个众包标注和417万个自动标注的家用物品图像及其物理概念标注,概念包括质量、脆性、可变形性、材质等。

  • 在PhysObjects数据集上微调视觉语言模型可以显著提高其在未见数据上的物理推理能力。

  • 将微调过的具有物理知识的视觉语言模型和大型语言模型规划器结合,可以提高实际场景中的物理推理规划任务的性能。

  • 在实际机器人上使用微调过的视觉语言模型也可以提高任务成功率。

  • 本文工作证明了使用人工标注数据来提高视觉语言模型对物品物理特性的理解,可以显著地提升机器人规划和操作的能力。

动机:针对当前视觉-语言模型(VLM)在物理世界推理方面的限制,尤其是对常见物体的物理概念(如材料、脆性)的理解不足,这限制了它们在涉及与这些对象的交互和物理推理的机器人操作任务中的实用性。因此,研究者提出PhysObjects,这是一个包含36.9K众包和417K自动化物理概念标注的常见家居物品的物体为中心的数据集,以解决这一限制。

斯坦福&谷歌等|面向机器人操纵的物理接地视觉语言模型

方法:本论文的方法包括使用PhysObjects数据集来对VLM进行微调,从而提高其对物理物体概念的理解,以捕捉这些概念的视觉外观方面的人类先验知识。此外,研究者还将这个物理基础的VLM与基于大型语言模型的机器人规划器相结合,以改进需要推理物理物体概念的任务的规划性能。

优势:通过使用PhysObjects数据集来提高视觉-语言模型的物理推理能力,从而增强了机器人操作任务的规划性能。研究者还展示了在真实机器人上使用物理接地VLM的好处,提高了任务成功率。此外,该方法的通用性和灵活性消除了在物理推理中使用单独的任务特定视觉模型的需要,使其成为为机器人规划赋予物理推理的自然解决方案。

提出PhysObjects数据集,通过微调视觉-语言模型,显著提高了对物理物体概念的理解,进而改进了机器人规划性能,为扩展VLM在机器人领域的应用性取得了进展。

https://iliad.stanford.edu/pg-vlm/ 

https://arxiv.org/abs/2309.02561 

斯坦福&谷歌等|面向机器人操纵的物理接地视觉语言模型
斯坦福&谷歌等|面向机器人操纵的物理接地视觉语言模型

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 9 月
 123
45678910
11121314151617
18192021222324
252627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...