媲美Gen-2，Meta多模态创AI生图新里程碑！破文生视频历史难题，静图秒变视频逼真到炸裂

1,440次阅读

没有评论

新智元报道

编辑：编辑部

【新智元导读】文生视频，直接被革命了！Meta连发两个重磅研究，多模态模型Emu的变体 Emu Video和Emu Edit联动解锁生成式AI未来。

就在刚刚，Meta一连解锁两个重磅研究，生成式AI，再次到达全新的里程碑！

Emu Video，是一种基于扩散模型的文本到视频生成方法，可以分解步骤生成高质量的视频。

论文地址：https://emu-video.metademolab.com/assets/emu_video.pdf

经过Emu Video处理过的视频，具有高度的风格化，当图像动起来、添加运动之后，一切变得如此栩栩如生。

兔子手中忽然就变出一只小号，然后开始开心地跳舞，然后小号变成了彩虹色，兔子开始随着音乐惬意地慢摇。

下一秒，兔子就戴上了VR眼镜，在夏威夷的海岛上散步，然后开始跳起草裙舞，又变身DJ、粉色金发娃娃……

Emu Edit，可以仅仅基于文本指令就对图像进行编辑，通过识别和生成任务，编辑得格外精确。

论文地址：https://emu-edit.metademolab.com/assets/emu_edit.pdf

Emu Edit对于指令遵循得如此精准，以至于能确保输入图像中与指令无关的像素保持不变。

比如，让一杯橙汁出现在游泳池边，它立马完美地瞬移了。

我们还可以让这杯橙汁变成一个金色的高脚杯，背景还可以瞬穿到文艺复兴时期。

网友惊呼，这简直是AI生图的下一个里程碑！

Emu Video：高质量视频生成「分解法」

目前，视频生成中最主流的方式，就是使用扩散模型一次性生成所有的帧。

而与之形成鲜明对比的是，在NLP中，长序列生成被表述为一个自回归问题——根据先前预测的单词来预测下一个单词。这样，每个后续预测的调节信号就逐渐变强。

由于视频本质上是时间序列，因此可以假设加强调节信号对于高质量的视频生成也很重要。

An Emu on a ski trip, 4k, high resolution

但这其中就有一个问题：使用扩散模型的自回归解码很有挑战性，因为从此类模型生成单个帧，本身就需要多次迭代。

Meta研究者想到的办法是，将文本到视频的生成分解为两个子问题——

1. 根据输入文本提示生成图像；

2. 基于图像和文本的更强条件生成视频。

为模型提供起始图像和文本的方法，就让视频生成变得更容易了，因为模型需要做的，只是预测图像未来将如何演变。

这种「分解」的视频生成方法，可以有效地训练模型，并且可以通过单个扩散模型来实现。

基于Emu模型，Meta团队提出了一种基于扩散模型的T2V生成的简单方法——Emu Video。

这是一种用于视频生成任务的统一架构，可对各种输入做出响应：文本、图像，以及文本和图像。

由于视频文本数据集比图像文本数据集小得多，因此研究者还使用了权重保持冻结的预训练文本到图像（T2I）模型来初始化分解文本到视频模型。

其中最关键的设计决策，就是调整视频扩散的噪声时间表，以及让我们直接生成更高分辨率视频的多阶段训练。

分解文本到视频的生成，首先要生成以文本p为条件的图像I，然后使用更强的条件(生成的图像和文本)来生成视频V。为了在图像上条件化模型F，研究者对图像进行了临时的零填充，并将其与二进制掩码连接起来，指示哪些帧是零填充，哪些是噪声输入

与直接的T2V方法不同，在推理时，Meta的分解法能够显式生成图像，这就能够轻松地保留文本到图像模型的视觉多样性、风格和质量。

Emu Video可以生成高质量且时间一致的视频，同时使用文本提示作为输入 (顶部两行)或用户提供的附加图像(底部行)

这使得Emu Video的性能优于直接的T2V方法，即使在考虑相同数量的训练数据、计算和可训练参数时，也是如此。

大多数先前的工作，都是通过利用T2I模型来解决T2V生成问题。比如，有几项工作是采用免训练方法，通过在T2I模型中注入运动信息，来生成零样本的T2V。

虽然这些方法不需要或需要有限的训练，但生成的视频的质量和多样性，都是有限的。

与之前需要深度串联多个模型的工作不同（比如用于Make-A-Video的5个模型），新方法仅使用2个扩散模型，能够以每秒16帧的速度，生成512×512的4秒长视频。

实验

研究者在3400万个许可视频文本对的数据集上，训练了Emu Video。

视频时长从5秒到60秒不等，涵盖了各种自然世界概念。

这些视频不是针对任何特定任务而策划的，也没有针对任何文本框架相似性或美观性进行过滤。

研究者使用了之前工作中的文本提示集来生成视频。

这些提示涵盖了各种各样的类别，可以测试模型生成自然和梦幻视频以及组成不同视觉概念的能力。

然后，研究者会使用JUICE评估方案进行可靠的人工评估，并使用5名评估者的多数票，每次都进行比较。

该表反映了Emu Video中的关键设计决策。每个表都显示了采用设计决策与不采用设计决策的模型在质量(Q) 和忠实度(F)方面的偏好

Emu Video中的设计选择如下。

第一行是直接从文本到视频生成的视频，结果的视觉质量低，且不一致。

第二行是使用分解的文本到视频方法，这种方法生成的视频质量高，一致性也得到了提高。

第三行是在512px生成时，不使用零终端SNR噪声计划，这会导致各代图像之间出现明显的不一致。

第四行是使用HQ数据微调第二行的模型，来增加生成视频中的运动。

另外，通过小的架构修改，研究者还在T帧上调节了模型，并且进行了扩展。

他们训练了Emu Video的变体，生成了以「过去」的16帧为条件的未来16帧。

对于两个不同的未来提示，模型会生成合理的扩展模型，既尊重原始视频，也尊重未来文本。

效果拔群

在人工评估中，与以前的工作相比，Emu Video的视频生成更受欢迎——有趣的是，不同的受访者偏重不同，其中96%的人更看重视频质量，85%的人更看重视频对文本提示的忠实度。

与Imagen Video和Align Your Latents相比，Emu Video在风格和一致性方面，质量都更高

由于不再需要像之前的工作那样深度串联多个模型，Emu Video产出的视频质量和分辨率都极高，在人工评估中已经接近许多成功的生成式AI视频工具。

比起谷歌的Imagen，比分是81:100；比起英伟达的PYOCO，比分是91:100；比起的Meta的Make-A-Video，比分是96:100。

比起Runway的Gen-2和Pika Labs，Emu Video的表现仍然很强劲。

在质量方面，Emu 胜过了VideoMake-A-Video或Imagen Video。原因主要是人们更喜欢它的像素清晰度和运动平滑度

最后，同一模型可以根据文本提示，对用户提供的图像进行「动画化」，再次刷新SOTA。

一些演示

two sloths are playing chess in slow motion, 4k, high resolution

A supernova explosion in space

A clear wine glass with turquoise-colored waves inside it

A robot dj is playing the turntable, in heavy raining futuristic tokyo rooftop cyberpunk night, sci-fi, fantasy, intricate, elegant, neon light, highly detailed, concept art, soft light, smooth, sharp focus, illustration

A phoenix flying over an active volcano in Iceland, photorealistic

一个场景转换多种动作、多种场景

柯基转换成浣熊、熊猫的多种形象

不同风格的熊猫

Emu Edit：高精度图像编辑

基于指令进行图像编辑的模型，已经屡见不鲜。

然而，当前像InstructPix2Pix在内等模型能够处理任何给定的指令，但仍无法准确地去解释和执行这些指令。

可见，它们的泛化能力是有限的，有时无法完成与训练时有偏差的任务。

对此，Meta研究人员提出了Emu Edit——首个在广泛、多样的任务集上经过训练的图像编辑模型，包括图像编辑和计算机视觉任务。

Emu Edit强大之处在于，它能够通过指令进行自由格式编辑。

比如，擦除绿草坪中的小狗，再添加一个放置在红色长椅上的笔记本，然后还可以将草坪背景变成沙漠。

Emu Edit还可以将抱枕的情绪从微笑，替换成困惑，甚至还可以「检测面部」。

香蕉拿着的吉他，立马变成了冲浪板，然后就来到幻想世界，戴上了蓝手套。

小老鼠戴上了小丑帽，然后变成了一只面无表情的熊猫，接着又变成一只兴奋大笑的熊猫。

总而言之，Emu Edit能够做到对图像局部和全局的编辑、删除和添加背景、颜色和几何变换、检测和分割等任务。

实现了一键可以处理各种图像任务，并且还能高精度生成。

当前的研究方法，通常倾向于过度修改，或在各种编辑任务上表现不佳。Meta认为，图像编辑的主要目标不应该只是制作一个「可信」的形象。

相反，模型应专注于仅精确更改与编辑请求相关的像素。

与当今许多生成式AI模型不同，Emu Edit精确地遵循指令，确保输入图像中与指令无关的像素保持不变。

Emu Edit是多任务模型，它结合了各种编辑和视觉任务来进行精确的图像编辑

例如，在棒球帽上添加文字「Aloha！」时，棒球帽本身应保持不变。

研究人员认为，将CV任务作为图像生成模型的指令，可为图像生成和编辑提供前所未有的控制。

为了训练模型，Meta团队开发了一个包含1000万个合成样本的数据集，每个样本都包括输入图像、文本指令、目标图像、任务索引。

如下，是所有数据样本的分布，由任务组成主要分为三大类：基于区域的编辑、自由格式的编辑、视觉任务，细分为16个任务。

由于Emu Edit是针对各种任务进行训练的，其中最重要一点是，能够根据用户指令识别需要应用的语义编辑，如全局/局部/纹理。

但是，如果指令非常特殊（图4中的「修复缓冲器」），或者编辑类型含糊不清（图4中「将天空改为灰色」既可解释为全局编辑，也可解释为纹理编辑），模型在确定预期的编辑类型时可能会遇到困难。

为了给模型提供一个强有力的条件，来引导生成过程走向正确的任务，Meta提出为每个任务学习一个独特的嵌入任务，并将其集成到模型中。

在训练过程中，任务嵌入与模型权重一起学习。

后期训练，Emu Edit能够通过少样本学习新的任务嵌入来适应新的任务，使模型的其余部分处于冻结状态。

最后，研究人员还发现，在多轮编辑场景中，重复应用模型，聚合重建和数值误差，从而产生明显的人工痕迹。

为了缓解这一问题，研究人员在每一轮编辑后，增加了一个按像素阈值处理的步骤，进而保持生成图像的质量。

实验

1. Emu Edit基准

研究人员比较了MagicBrush测试集和Emu Edit基准测试的结果。

与在Emu Edit测试集和MagicBrush测试集上评估的图像编辑基线的比较

为了收集具有较低偏差和较高多样性的数据集，研究人员采用了不同的方法。

他们首先定义了7种不同类型的潜在图像编辑操作：背景修改（背景）、全局图像修改（全局）、样式修改（样式）、对象移除（移除）、对象添加（添加）、局部修改（局部）和颜色/纹理修改（纹理）。

然后，利用来自MagicBrush基准的各种输入图像集，对于每个编辑操作，让工作者设计相关的、创造性的和具有挑战性的说明。此外，为了提高所收集样本的质量，Meta还采用了验证后阶段。

2. 基线比较

研究人员将Emu Edit模型与两个基于指令的图像编辑基线模型进行比较：InstructPix2Pix和Mag-icBrush。

结果表明，与所有基线相比，人类评估者一致地喜欢Emu Edit。

此外，除了空文本反转（Null-Text Inversion）在推理过程中使用了ground-truth字幕外，Emu Edit方法明显优于现有基线，

3. 消融研究

– 计算机视觉任务增强图像编辑任务

这部分，Meta团队演示了视觉任务对图像编辑任务中Emu Edit性能的重要性。

为此，研究人员训练了两个额外的模型的所有任务，除了「检测和分割」任务，和「图像到图像翻译」任务。

如下表4，增加的「检测和分割任务」提高了基于局部编辑任务中的模型性能。

此外，他们还观察到图像到图像的翻译任务，提高了自由形式编辑任务的性能。

– 学习任务嵌入的贡献

研究人员比较了Emu Edit的三种变体：(i) 以ground-truth任务嵌入为条件；(ii) 以任务嵌入为条件 (iii) 不以任务类型为条件。

表3显示了基准验证集的结果。可以看出，对任务类型进行调节，可以提高模型的性能。此外，任务预测器缩小了与ground-truth条件模型的差距。

在图9中，展示了在指令和输入图像保持不变的情况下，对任务进行调整的效果。可以看出，改变任务嵌入会直接影响模型执行的任务。

4. 少样本学习新任务

研究中，Meta还通过任务反转来探索，Emu Edit对未知任务泛化。

在此过程中，保持模型权重不变，仅更新任务嵌入以适应新任务。

实验证明，Emu Edit可以迅速适应新任务，如超分辨率、轮廓检测等。当标注样本有限或计算资源有限时，Emu Edit的任务逆向适应有着巨大的优势。

虽然Meta目前的工作还仅仅是基础研究，但其潜在的应用场景可以预见。

想象一下，聊天时即时生成动画贴纸、GIF，不用再去搜索表情包，又或者编辑自己的照片或图像，不需要任何技能，就能搞定。

发个生活动态，可以将你的静态图动态化，能吸引不少人前看。

不过，Emu Video和Emu Edit虽不能替代专业艺术家和动画师，但它们可以帮助人们以一种全新的方式表达自己。

参考资料：https://ai.meta.com/blog/emu-text-to-video-generation-image-editing-research/https://emu-video.metademolab.com/https://emu-edit.metademolab.com/

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

媲美Gen-2，Meta多模态创AI生图新里程碑！破文生视频历史难题，静图秒变视频逼真到炸裂

新智元报道

【新智元导读】文生视频，直接被革命了！Meta连发两个重磅研究，多模态模型Emu的变体 Emu Video和Emu Edit联动解锁生成式AI未来。

实验

效果拔群

一些演示

实验

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定