稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1

1,006次阅读
没有评论

稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1

预告明天还有惊喜

刚填完坑就又埋下“惊喜预告”??

预告多日之后,稚晖君正式官宣首个通用具身基座模型——智元启元大模型(Genie Operator-1,以下简称GO-1),将具身智能迈向通用全能的门槛进一步降低了。

而且剧透明天还有惊喜。

稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1
稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1

概括而言,此次发布的GO-1大模型主要有以下几个特点:

  • 人类视频学习:可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解;
  • 小样本快速泛化:能够在极少数据甚至零样本下泛化到新场景、新任务,使得后训练成本非常低;
  • 一脑多形:能够在不同机器人形态之间迁移,快速适配到不同本体;
  • 持续进化:搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习。

网友们也纷纷表示,通用机器人指日可待了!

稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1
稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1

首个通用具身基座模型GO-1

具体来看,GO-1大模型由智元机器人联合上海AI Lab共同发布。

通过大规模、多样化的数据训练,GO-1展现出强大的通用性智能化能力,突破了大量以往具身智能面临的瓶颈。

按照官方说法,GO-1除了拓展机器人的运动能力,更重要的是加强了其AI能力,从而大大增加了机器人的实用价值。

首先,通过学习人类操作视频,机器人能快速学习新技能了。

比如下面这个倒水的动作:

稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1

而且机器人还具备了一定的物体跟踪能力,即使随意移动水杯位置,它也能精准倒水。

稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1

与此同时,机器人不止掌握已经学过的操作,还能识别并操作未见过的物品(仅通过百条级数据就能实现快速泛化)。

比如倒完水之后,再烤烤面包并抹上果酱:

稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1

另外,当前的具身模型通常针对单一机器人本体(Hardware Embodiment)进行设计,这导致两个问题:

  • 数据利用率低:不同机器人收集的数据难以共享,无法充分利用跨本体数据进行训练;
  • 部署受限:训练好的模型难以迁移到不同类型的机器人,每个本体往往需要独立训练一个模型,增加适配成本。

而用上GO-1大模型之后,这些问题都被解决了。

稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1

可以看到,多个相同/不同本体的机器人能够共同协作完成复杂任务。

稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1

此外,GO-1大模型还支持数据飞轮持续提升。即在实际操作过程中不断回流数据尤其是执行出现问题的数据,持续驱动优化模型性能。

比如下面这个例子中,机器人放咖啡杯时出现失误,就可以通过数据回流(加上人工审核)针对性优化。

稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1

对了,GO-1大模型也为机器人增加了新的语音交互方式,这极大便利了用户在现实场景中自由表达需求。

稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1

基于全新ViLLA架构

事实上,GO-1大模型的构建核心围绕对数据的充分利用展开。

基于具身领域的数字金字塔,GO-1大模型吸纳了人类世界多种维度和类型的数据:

  • 底层:互联网的大规模纯文本与图文数据,可以帮助机器人理解通用知识和场景;
  • 第2层:大规模人类操作/跨本体视频,可以帮助机器人学习人类或者其他本体的动作操作模式;
  • 第3层:仿真数据,用于增强泛化性,让机器人适应不同场景、物体等;
  • 顶层:高质量的真机示教数据,用于训练精准动作执行。
稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1

有了这些数据,可以让机器人在一开始就拥有通用的场景感知和语言能力,通用的动作理解能力,以及精细的动作执行力。

当然,过程中也少不了一个合适的数据处理架构。

由于现有的VLA(Vision-Language-Action)架构没有利用到数字金字塔中大规模人类/跨本体操作视频数据,缺少了一个重要的数据来源,导致迭代的成本更高,进化的速度更慢。

因此,智元团队创新性地提出了ViLLA(Vision-Language-Latent-Action)架构

与VLA架构相比,ViLLA通过预测Latent Action Tokens(隐式动作标记),弥合图像-文本输入与机器人执行动作之间的鸿沟。它能有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力。

展开来说,ViLLA架构是由VLM(多模态大模型)+MoE(混合专家)组成。

其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。

推理时,VLM、Latent Planner和Action Expert三者协同工作

  • VLM采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;
  • Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划;
  • Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列。

举个例子,假如用户给出机器人指令“挂衣服”,模型就可以根据看到的画面,理解这句话对应的任务要求。然后模型根据之前训练时看过的挂衣服数据,设想这个过程应该包括哪些操作步骤,最后执行这一连串的步骤,完成整个任务的操作。

稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1

与此同时,通过ViLLA架构,智元团队在五种不同复杂度任务上测试GO-1。

结果显示,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%(46%->78%)。其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务表现尤为突出。

此外团队还单独验证了ViLLA 架构中Latent Planner的作用,可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。

稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1

还有一个彩蛋

GO-1发布视频的最后,相信大家也看到了一个彩蛋:

稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1

不知道内容是否和稚晖君的最新预告有关,明天我们继续蹲蹲~

论文:
https://agibot-world.com/blog/agibot_go1.pdf

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 3 月
 12
3456789
10111213141516
17181920212223
24252627282930
31  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...