李飞飞发布全新世界模型，单GPU就能跑！

时令
2025-10-17
12:39:35

来源：量子位

可永久互动

时令发自凹非寺

量子位 | 公众号 QbitAI

李飞飞的世界模型创业，最新成果来了！

刚刚，教母亲自宣布对外推出全新模型RTFM（A Real-Time Frame Model），不仅具备实时运行、持久性和3D一致性，更关键的是——

单张H100 GPU就能跑。

此外，RTFM的设计遵循三大核心原则：

效率：仅需单张H100 GPU，RTFM便能以交互级帧率实时完成推理运算。

可扩展性：该架构具备随数据量与算力增长而持续扩展的能力。它通过端到端的通用架构从海量视频数据中自主学习，无需依赖显式3D表征即可构建三维世界模型。

持久性：用户可无限时长与RTFM交互，所有场景将永久留存。该系统构建的持久化3D世界不会因视角转换而消失。

下面具体来看。

世界模型需要大量计算资源

强大的世界模型能够实时重建、生成并模拟具有持久性、可交互且物理精确的世界。这类模型将彻底改变从媒体到机器人技术等各行各业。

过去一年，生成式视频建模的进展已成功应用于生成式世界建模领域。

随着技术发展，一个事实愈发清晰：生成式世界模型对算力的需求将远超当今的大型语言模型。

若直接套用现有视频架构，生成60帧的4K交互视频流每秒需产生超过10万个token（约等于《弗兰肯斯坦》或首部《哈利·波特》的篇幅）。

而要维持一小时以上的持续交互，需处理的上下文token更将突破1亿大关。基于当前计算基础设施，这既不可行也不具备经济性。

李飞飞团队深信“惨痛教训”揭示的规律：

那些能随算力增长优雅扩展的简洁方法终将在AI领域占据主导，因为它们能享受数十年来推动技术发展的算力成本指数级下降红利。生成式世界模型正处在绝佳位置，必将从持续降低的算力成本中获益。

这也就引出一个关键问题：生成式世界模型是否会被当前硬件条件所限制？能否现在就预览这项技术的雏形？

于是，李飞飞团队设定了一个明确目标：设计一款足够高效、可立即部署，并能随算力提升持续扩展的生成式世界模型。

他们的目的是打造仅需单张H100 GPU即可驱动的模型，在保持交互帧率的同时，确保虚拟世界永不消散。实现这些技术指标，将让他们提前窥见未来——在当下硬件上体验明日模型可能达到的高度。

这一目标深刻影响着他们从任务设定到模型架构的整个系统设计。通过精心优化推理堆栈的每个环节，融合架构设计、模型蒸馏与推理优化的前沿突破，他们致力于在当今硬件上呈现对未来模型最高保真度预览。

世界模型作为学习渲染器

传统的3D图形管线采用显式3D表征（如三角网格、高斯泼溅）构建世界模型，再通过渲染生成2D图像。这些管线依赖人工设计的数据结构与算法来模拟3D几何、材质、光照、阴影及反射等效果。

数十年来，这类方法始终是计算机图形学领域的中流砥柱，但其难以随数据量与算力增长实现线性扩展。

RTFM则另辟蹊径。基于生成式视频建模的最新突破，研究团队通过训练单一神经网络，输入场景的单张或多张2D图像，即可从全新视角生成该场景的2D图像，全程无需构建任何显式3D表征。

RTFM还采用作用于帧序列的自回归扩散变换器架构，通过海量视频数据进行端到端训练，实现基于历史帧的后续帧预测。

RTFM 可以被视为一种可学习的渲染器（learned renderer）。它首先将输入的图像帧转换为神经网络中的激活（即KV cache），这些激活以隐式方式表示整个世界，在生成新帧的过程中，网络通过注意力机制从这种表示中读取信息，从而根据输入视角生成与之保持一致的世界新视图。

从输入视图转换为世界表示，以及再从该表示中渲染新帧的机制，并不是通过手工设计的，而是通过端到端的数据训练自动学得的。

RTFM只需在训练过程中观察到这些现象，就能够学会建模诸如反射、阴影等复杂效果。

可以说，RTFM模糊了“重建”（在已有视角之间进行插值）与“生成”（创造输入视角中不可见的新内容）之间的界限，而这两者在计算机视觉中历史上一直被视为两个独立的问题。

当RTFM被提供大量输入视角时，由于任务约束更强，它更倾向于执行重建；当输入视角较少时，它则被迫进行超出已有视角的外推生成。

将姿态帧作为空间记忆

现实世界的一个关键特性是持久性（persistence）：当你移开视线时，世界不会消失或完全改变，无论你离开多长时间，你总是可以回到之前去过的地方。

这对自回归帧模型来说一直是一个挑战。世界仅通过二维图像帧被隐式表示，因此，实现持久性要求模型在用户探索世界的过程中，对不断增长的帧集合进行推理。这意味着每生成一帧的成本都比前一帧更高，因此模型对世界的记忆实际上受到其计算资源预算的限制。

RTFM通过将每一帧建模为在三维空间中具有一个姿态（位置和方向）来规避这一问题。他们通过向模型提供待生成帧的姿态来生成新帧。

模型对世界的记忆（包含在其帧中）具有空间结构。它将带有姿态的帧作为空间记忆使用。这为模型提供了一个弱先验——即它所建模的世界是三维欧几里得空间——而无需强制模型显式预测该世界中物体的三维几何形状。

RTFM的空间记忆使得持久性不受限制。在生成新帧时，他们会从已姿态帧的空间记忆中检索附近帧，以为模型构建一个定制的上下文。

团队将这一技术称为上下文切换（context juggling）：模型在不同空间区域生成内容时会使用不同的上下文帧。这使得RTFM能够在长时间交互中保持对大型世界的持久记忆，而无需对不断增长的帧集合进行推理。

最后，该模型即日起以预览版形式开放体验，现在就可以试起来了…

试完欢迎回来补个反馈评论哦，笔芯～

参考链接：
[1]https://x.com/drfeifei/status/1978840835341914164
[2]https://x.com/theworldlabs/status/1978839175320186988
[3]https://www.worldlabs.ai/blog/rtfm

2025 年 10 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

李飞飞发布全新世界模型，单GPU就能跑！

李飞飞发布全新世界模型，单GPU就能跑！

世界模型需要大量计算资源

世界模型作为学习渲染器

将姿态帧作为空间记忆

test

test

文心AIGC

test

test