LLM生成3D场景，无限延伸！斯坦福华人提出3D动画生成框架，一句话一幅图创造无限3D世界

新智元报道

编辑：alan 润

【新智元导读】近日，斯坦福的华人研究人员提出全新视频生成框架——WonderJourney，一句话或者一张图，即可自动生成一系列3D场景的连续画面。

斯坦福华人退学博士开发的Pika，让AI 技术和艺术迸发出了绚丽的火花。最近，又有斯坦福的华人研究人员提出的新的框架——WonderJourney，可以用一句话或者一张图，自动生成一系列3D场景的连续画面，效果炫酷！用一张爱丽丝奇境漫游的图片，就能生成一段真的爱丽丝漫游的梦境经历。
或者，用一首陆游的《游山西村》，可以生成一段水墨风格的诗词梦境：莫笑农家腊酒浑，丰年留客足鸡豚。山重水复疑无路，柳暗花明又一村。箫鼓追随春社近，衣冠简朴古风存。从今若许闲乘月，拄仗无时夜扣门项目网址：https://kovenyu.com/WonderJourney/论文地址：https://arxiv.org/abs/2312.03884WonderJourney是一个用于永久场景生成的模块化框架。与之前专注于单一类型场景的视图生成框架不同，WonderJourney可以从用户提供的任何位置（通过文本描述或图像）开始，并通过一长串不同但连贯相连的3D场景生成旅程。作者利用LLM来生成场景的文本描述，利用文本驱动的点云生成管道，来制作漂亮且连贯的3D场景序列，并利用大型VLM（视觉语言模型）来验证生成的场景。No, no! The adventures first, explanations take such a dreadful time. — Alice’s Adventures in Wonderland——作者表示，不解释了，赶紧先看效果！首先展示从任意位置开始，沿着摄像机轨迹生成一系列不同但连贯的3D场景。以上图中的场景为起点，WonderJourney进行了延伸和想象：

确实连贯且优美，从闹市到亭台山水，不得不说，AI的想象力真的有点东西。

然后展示WonderJourney合成长篇视频的能力：

虽然有瑕疵，并且建筑风格不太统一，但小编觉得最后视角突然进入房间，算是很有意思的安排。

接下来，从同一地点开始，WonderJourney可以生成一组不同的「wonderjourneys」，——即不同的发展方向，在不同的目的地结束。这里使用相机姿势的轨迹来渲染视频。

——小编称之为”AI的平行世界“。

最后，WonderJourney还可以根据一系列文本描述（例如诗歌、俳句和故事摘要）生成受控的wonderjourneys，也就是文生视频的能力。

首先是一首古诗：

双飞燕子几时回，夹岸桃花蘸水。开春雨断桥人不渡，小舟撑出柳阴来。

燕子、桃花、水流、小舟，也是该有的意象都有了。

然后是日文的俳句，小编实在不懂日文，就把原文放在下面了：

虽然不懂，但「远山」、「日」、「枯野」咱还是能看出来的。

最后是英文场景下的故事摘要，这里描绘的是诗歌Jabberwocky（龙）中的场景（Fighting…Hero returns…Storyteller…）：

战斗、英雄凯旋、最后是讲故事的人。

不知道大家有没有发现，三种语言画出来的风格完全不同。中文是水墨画，日文有点像浮世绘，英文有一点点油画的感觉。

论文细节

在《爱丽丝梦游仙境》中，故事开始于爱丽丝掉进兔子洞，进入一个陌生而迷人的仙境。

在穿越这个仙境的旅程中，爱丽丝遇到了许多神奇的角色，如柴郡猫和疯帽子，以及茶话会和玫瑰园等奇特的场景——最终在皇宫结束。

这些角色和场景结合在一起，形成了一个引人入胜的世界，多年来吸引了无数读者。

在本文中，作者遵循这一创意，探索现代计算机视觉和人工智能模型，如何同样生成如此有趣和多样化的视觉世界，用户可以穿越这些世界，就像爱丽丝在仙境中的冒险一样。

为了实现这个目标，作者引入了永久3D场景生成。

这项工作的目标是，从单个图像或语言描述的任意位置开始，合成一系列不同的3D场景。

生成的3D场景沿着远程摄像机轨迹连贯连接，穿过各种合理的地方，使用一系列不同的场景渲染视频，以模拟在虚构的“仙境”中旅行的视觉体验。

永久3D场景生成的主要挑战集中在，生成多样化但合理的场景元素上。这些场景元素需要通过连贯连接的3D场景来支持路径的形成，

包括可以被观察到的场景中的各种对象、背景和布局，并自然地过渡到下一个但未观察到的场景。

WonderJourney的生成过程可以分解为：确定要为给定场景生成哪些对象，在哪里生成这些对象，以及这些场景如何以几何方式相互连接。

确定要生成哪些元素需要对场景进行语义理解（比如，狮子可能不太适合厨房）；确定在哪里生成需要关于视觉世界的常识（比如，狮子不应该漂浮在天空中）；

此外，在新的连接场景中生成这些元素需要几何理解（比如，遮挡和无遮挡、视差和适当的空间布局）。

WonderJourney利用LLM生成一长串场景描述，然后使用文本驱动的视觉场景生成模块，生成一系列彩色点云来表示连续的3D场景。

在这里，LLM提供常识和语义推理；视觉模块提供视觉和几何理解以及适当的3D效果。

最后，利用VLM来验证生成，并在检测到不需要的视觉效果时，启动重新生成。

上图展示了WonderJourney框架和跨模块的工作流程。

WonderJourney框架是完全模块化的，每个模块都可以由最好的预训练模型实现。

WonderJourney框架包含三个核心组件：一个用于生成场景描述的LLM，一个用于生成连贯3D场景的文本驱动的视觉模块，以及一个用于验证生成场景的VLM。

方法

WonderJourney的主要思想是生成下一个场景所包含的视觉元素的文字描述，然后使用一个文本引导的视觉生成模块来制作三维场景。

WonderJourney将整个生成任务分解为场景描述生成、视觉场景生成和视觉验证。

给定输入图像或文本，首先通过使用文本到图像模型生成图像，或使用VLM生成描述，将其与其他模态配对。

然后，通过LLM生成下一个场景描述。视觉场景生成模块接收下一个场景描述和当前场景图像，生成下一个由彩色点云表示的 3D 场景。

之后，VLM会检查此生成过程，以确保没有不良影响，否则会重新生成。

场景描述生成

这里定义场景描述，它由一个在场景中保持一致的样式S、场景中的对象O和一个描述场景背景的简洁标题B组成。

利用LLM输出自然语言描述，然后使用词汇类别过滤器来处理O和B的原始文本，只保留实体的名词和属性的形容词。

从经验上讲，与要求LLM直接输出这种结构化描述相比，本文的做法会产生更连贯的连接场景。

视觉场景生成

视觉场景生成器包括免学习操作，例如透视取消投影和渲染，以及使用参数化（预训练）视觉模型的组件，包括深度估计器、基于分割的深度精简器和文本条件图像Inpainter。

将图像提升到点云：给定由图像表示的当前场景，通过估计深度将其提升到3D，并使用针孔相机模型将其取消投影。

实验中使用了MIDAS v3.1，是目前最先进的深度估计器之一。

现有的单目深度估计器有两个共同的问题：

首先，深度不连续性没有得到很好的建模，导致物体边界的深度边缘过于平滑。

其次，天空的深度总是被低估。

为了解决这两个问题，这里引入了一种利用像素分组分割，和天空分割的深度细化过程。

为了增强跨对象边界的深度不连续性，当元素的视差范围有限时，使用正面平面对场景元素进行建模。

上图展示了视觉场景生成模块。每个箭头代表一个参数化视觉模型（比如深度估计器）或一个操作（比如渲染）。

针对具有不同风格的一般场景，本文使用视差范围的标准来保持估计的深度，而不是选择语义类。

对于天空深度，这里使用 OneFormer来分割天空区域，并删除沿天空边界的点。

此外，作者发现远处像素的深度通常不可靠。因此，文中还设置了一个深度为F的远背景平面，该平面切断了超出该深度的所有像素的深度。

作者沿着连接新场景和当前场景的摄像机轨迹，放置一个额外的摄像机，在该摄像机上渲染部分图像，对图像进行涂色，并将附加点添加到点云中。

在实践中，保持较大的点云，会导致在生成高分辨率场景的长轨迹时，需要大量GPU内存的点太多。

视觉验证

根据经验，在生成的大部分照片和绘画中，会出现画框或照片边框，从而破坏了几何图形的一致性。

此外，在生成的图像边界附近经常存在不需要的模糊失焦对象。

因此，文中加入一个验证步骤，来识别和拒绝这些不需要的生成场景。

这里将其表述为基于文本的检测问题，目标是在生成的场景图像中检测一组预定义的不良效果。

如果检测到任何不良影响，框架会拒绝并重新生成场景图像。

上图展示了从同一输入图像生成的不同旅程的定性结果，表明 WonderJourney 产生的结果表现良好。

实验

由于永久3D场景生成是一项没有现有数据集的新任务，因此这里混合使用人工拍摄的照片、来自网络的无版权照片和生成的示例，用于实验评估，并通过DALL·E 3执行文本到图像配对的过程。

论文使用两种最先进的永久视图生成方法作为基准：基于图像的InfiniteNature-Zero和基于文本的SceneScape。

上图定性地展示了跨不同场景和不同风格生成旅程的示例。其中前两行输入是真实拍摄的照片。

这些结果表明，WonderJourney能够从各种类型的输入图像中生成多样化但连贯连接的场景。

上图展示了WonderJourney与InfiniteNature-Zero和SceneScape的比较。

由于InfiniteNature-Zero是在自然照片上训练的，因此实验仅使用逼真的自然图像作为输入对其进行比较。

WonderJourney以创意和娱乐为目的，因此这里专注于人类偏好评估作为量化的指标，使用以下四个轴：单次旅程中生成场景的多样性、视觉质量、场景复杂性和整体趣味性。

实验招募了400名参与者，其中200名用于评价与InfiniteNatureZero相比的情况，另外200名用于比较SceneScape的情况。

每个参与者回答12个问题（例如“比较下面的两个视频。哪个视频具有更高的多样性？）。

如上表所示，在所有四个轴上，WonderJourney都比两个基线都更受欢迎。

InfiniteNature-Zero仅合成自然场景，而WonderJourney则生成更多样化的场景和对象，例如登山者和房屋，这些场景和对象与初始自然场景自然相连。

由于使用了纹理网格，SceneScape倾向于生成类似洞穴的场景，因此所有示例都会收敛到洞穴中。此外，SceneScape往往不会生成新对象。所以用户对WonderJourney的偏好更高。

参考资料：https://arxiv.org/pdf/2312.03884.pdfhttps://kovenyu.com/wonderjourney/

2023 年 12 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

LLM生成3D场景，无限延伸！斯坦福华人提出3D动画生成框架，一句话一幅图创造无限3D世界

新智元报道

【新智元导读】近日，斯坦福的华人研究人员提出全新视频生成框架——WonderJourney，一句话或者一张图，即可自动生成一系列3D场景的连续画面。

方法

场景描述生成

视觉场景生成

视觉验证

test

test

文心AIGC

test

test