豆包团队视频生成新突破：无需语言模型，仅凭“视觉”就能学习复杂任务

十三
2025-01-27
13:47:13

来源：量子位

压缩视觉变化，让视频学习更加高效

豆包大模型团队投稿

现有的视频生成模型，大多依赖语言或标签数据学习知识，很少涉及纯视觉信号的学习，比如Sora。

然而，语言并不能捕捉真实世界中的所有知识，例如，折纸、打领结等复杂任务难以通过语言清晰表达。

那么，模型能否不依赖语言模型，从纯视觉视角学习知识、认知世界进而掌握推理和规划等能力？

现在，豆包大模型团队联合北京交通大学、中国科学技术大学提出了VideoWorld。

这是一种通用的视频生成模型，无需依赖语言模型存在，便可统一执行理解和推理任务。VideoWorld利用一种潜在动态模型（Latent Dynamics Model，LDM），高效压缩视频帧间的视觉变化信息，显著提升知识学习效率和效果。

最终，VideoWorld在不依赖任何强化学习搜索或奖励函数机制前提下，达到了专业5段9×9围棋水平，并能够在多种环境中，执行机器人任务。

视频地址：
https://mp.weixin.qq.com/s/C1NTUQeofJgJNwnY8hX0Xw?token=1813497773&lang=zh_CN

该工作在业内已引起一定关注。

上的AI领域大V、科技评论网站ReadMultiplex创始人Brian Roemmele认为：

这是机器人学习和推理的重大进步。

论文作者则表示，尽管真实世界视频的生成和泛化仍存在很大挑战，视频生成模型可以成为一种通用的知识学习方法，并充当在现实世界中思考和行动的人工大脑。

目前该项目代码与模型已开源。

仅凭“视觉”，就能学习复杂任务

就像李飞飞教授9年前演讲中提到“幼儿可以不依靠语言理解真实世界”一样，在自然界中，大猩猩和其他灵长类动物主要通过视觉观察来学习重要技能，如觅食和社交互动。人类婴幼儿同样不需要语言便可以理解周围环境。

那么，人工智能模型能否仅通过视觉输入来学习知识？

为探索其中答案，团队构建了两个实验环境：视频围棋对战和视频机器人模拟操控。

研究者们认为，围棋可以很好地评估模型的规则学习、推理和规划能力，且围棋图像可以将外观、纹理等复杂细节与高级知识的评估相分离，非常适合对上述问题的探索。同时，机器人任务则考察了模型理解控制规则和规划任务的能力。

模型训练使用一个包含大量视频演示数据的离线数据集，以此，得到一个可以根据过往观测预测未来帧的视频生成器。

训练完成后，模型可以直接学习一个任务相关的映射函数，将生成的视频帧转换为任务执行所需动作。这使得视频生成模型可以在不依赖任何动作标签的情况下，学习和执行具体任务。

首先使用朴素的自回归模型实例化视频生成器，包含一个VQ-VAE编码器-解码器和一个自回归Transformer。编码器将视频帧转换为离散的标记，Transformer在训练期间使用这些标记进行下一标记的预测。

在推理过程中，Transformer生成下一帧的离散标记，这些标记随后由解码器转换回像素空间。

基于上述朴素的框架，他们观测到，视频生成模型可以掌握基本围棋规则、走棋策略以及机器人操纵能力。

但团队也同时发现，视频序列的知识挖掘效率显著落后于以文本形式，具体如下图所示。

团队将这归因于——视频中存在大量冗余信息，影响了模型的学习效率。

例如，棋子移动可以仅通过状态序列中的少量位置标记进行编码，而在视频中，则需要视觉编码器产生多得多的标记。这种差异不利于模型对复杂知识的快速学习。

压缩视觉变化，让视频学习更加高效

根据上述观测结果，团队提出了VideoWorld。它在保留丰富视觉信息的同时，对与关键决策和动作相关的视觉变化进行压缩，以实现更有效的视频学习。

VideoWorld引入了一个潜在动态模型（Latent Dynamics Model, LDM），压缩帧间视觉变化为紧凑的潜在编码，提高模型对知识的挖掘效率。

例如，围棋中的多步棋盘变化或机器人中的连续动作表现出强时间相关性。通过将这些多步变化压缩成紧凑嵌入，不仅可增加策略信息的紧凑性，还编码了用于前向规划的指导信息。

LDM采用了MAGVITv2风格的编码器-解码器结构，但取消了时间维度下采样，以保留每帧细节。

接下来，LDM定义了一组注意力模块和对应可学习向量。通过注意力机制，每个向量捕捉第一帧至后续多帧的动态变化信息，然后通过FSQ量化。

最后，解码器使用第一帧的特征图和帧之间的视觉变化编码重建后续帧。

通过使用多个向量顺序编码第一帧到后续多帧的动态变化，VideoWorld实现了紧凑且信息丰富的视觉表示，可以捕捉视觉序列中的短期和长期依赖关系。

通过引入LDM，VideoWorld在仅有300M参数量下，达到专业5段的9×9围棋水平，且不依赖任何强化学习中的搜索或奖励函数机制。在机器人任务上，VideoWorld也展现出了对多任务、多环境的泛化能力。

研发团队对LDM提高视频学习效率的原因，得出以下结论：

LDM建模了训练集的数据模式

UMAP可视化表明：LDM建模了训练集中常见的走棋模式，并有效地将短期和长期数据模式压缩至潜在空间中。右图根据机械臂沿X/Y/Z轴运动方向可视化潜在编码，同样表明LDM可以建模多步动态依赖关系。

LDM帮助模型在测试时进行前向规划

研发者们还研究了LDM在模型推理中的作用。如下图 UMAP可视化所示，在测试阶段，模型生成的潜在编码按照时间步（Time-step）进行分组，使得模型能够从更长远视角做出围棋决策。

在机器人场景中，研究者们也观察到了类似现象。下图展示了VideoWorld在不同机器人操控任务中预测的潜在编码。不同时间步的潜在编码根据任务类型进行分组，突显了模型逐步捕捉特定任务长程变化的能力。

LDM可以生成因果相关的编码

为进一步研究潜在编码的影响，研发团队进行了一项干预实验：用随机标记替换不同时间步的潜在编码，并观察其对模型性能的影响。

实验结果显示，干预第一个编码的影响最大，这可能由于编码之间存在因果依赖，团队认为：改变第一个编码，即下一时间步的最佳决策，会影响所有未来的决策。

One More Thing

尽管VideoWorld在围棋和模拟机器人操控环境中展现了优秀的性能，团队同时也意识到，其在真实世界环境中的应用，仍面临着高质量视频生成和多环境泛化等挑战。

未来，团队将着力解决这些难题，推动视频生成模型成为真实世界中的通用知识学习器。

关于豆包大模型团队：

字节跳动豆包大模型团队成立于 2023 年，致力于开发业界最先进的 AI 大模型技术，成为世界一流的研究团队，为科技和社会发展作出贡献，团队研究方向涵盖深度学习、强化学习、LLM、语音、视觉、AI Infra、AI Safety 等。

了解这篇研究的详情，可见以下链接：

论文链接：https://arxiv.org/abs/2501.09781
代码链接：https://github.com/bytedance/VideoWorld
项目主页：https://maverickren.github.io/VideoWorld.github.io

2025 年 1 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

豆包团队视频生成新突破：无需语言模型，仅凭“视觉”就能学习复杂任务

豆包团队视频生成新突破：无需语言模型，仅凭“视觉”就能学习复杂任务

豆包大模型团队投稿

仅凭“视觉”，就能学习复杂任务

压缩视觉变化，让视频学习更加高效

One More Thing

test

test

文心AIGC

test

test

豆包团队视频生成新突破：无需语言模型，仅凭“视觉”就能学习复杂任务

豆包团队视频生成新突破：无需语言模型，仅凭“视觉”就能学习复杂任务

豆包大模型团队 投稿

仅凭“视觉”，就能学习复杂任务

压缩视觉变化，让视频学习更加高效

One More Thing

test

test

文心AIGC

test

test

豆包大模型团队投稿