Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation
解决问题:该论文旨在提出一种高效的文本到视频生成方法,解决了在像素空间中生成视频时复杂和计算成本高的问题。该方法在预训练的文本到图像生成模型的基础上,通过学习潜在空间中的视频扩散模型实现文本到视频的生成。
关键思路:该论文的关键思路是利用参数-free的时间位移模块,将图像生成的U-Net模型扩展到视频生成中。通过将特征图通道的两个部分沿时间维度向前和向后移动,当前帧的移动特征图可以接收到前一帧和后一帧的特征,从而实现运动学习而无需额外的参数。相比之前的研究,该方法显著提高了效率。
其他亮点:该论文的实验结果表明,Latent-Shift在效率上具有优势,同时在质量上也能够达到或超过其他方法。此外,该方法还能够生成图像,即使是针对T2V生成进行微调的。
关于作者:主要作者包括Jie An、Songyang Zhang、Harry Yang、Sonal Gupta、Jia-Bin Huang、Jiebo Luo和Xi Yin。他们分别来自多个机构,包括University of Rochester、University of Maryland、University of Virginia、Virginia Tech、Georgia Tech和Google Research。其中,Jia-Bin Huang曾在2018年发表了题为“Generative Image Inpainting with Contextual Attention”的论文,该论文提出了一种基于上下文注意力机制的图像修复方法。
相关研究:近期的相关研究包括:1)“Text-to-Video Generation with Conditional Adversarial Networks”(作者:Wang et al.;机构:University of California);2)“Text-to-Video Generation via Adversarial Learning with Shared Motion Component”(作者:Liu et al.;机构:Beijing Institute of Technology);3)“Text-to-Video Generation by Learning Explicit and Implicit Motion Cues”(作者:Zhu et al.;机构:University of Technology Sydney)。
论文摘要:本文提出了一种高效的文本到视频生成方法,名为Latent-Shift。该方法基于一个预训练的文本到图像生成模型,包括一个自编码器和一个U-Net扩散模型。在潜在空间中学习视频扩散模型比在像素空间中更高效。后者通常限制于首先生成低分辨率视频,然后再使用一系列帧插值和超分辨率模型,使整个流程非常复杂和计算成本高昂。为了将U-Net从图像生成扩展到视频生成,以前的工作提出了添加额外模块,如1D时间卷积和/或时间注意层。相反,本文提出了一个无参数的时间移位模块,可以利用空间U-Net进行视频生成。我们通过在时间维度上向前和向后移动特征映射通道的两个部分来实现这一点。当前帧的移位特征因此接收来自前一帧和后续帧的特征,实现了运动学习而无需额外的参数。我们表明,Latent-Shift在效率上比现有方法更高,同时实现了相当或更好的结果。此外,尽管被微调为T2V生成,Latent-Shift仍能生成图像。