本文提出NUWA-XL,一个新的扩散+扩散模型(Diffusion over Diffusion architecture)以实现超长视频生成。大多数现有的超长视频生成方法需要将视频进行时序上的线性分割,从而受限于短视频训练、长视频推理的难点,且无法对时序信息进行充分利用。相反,本文采用从粗到细的思路,将视频的在统一粒度上并行生成。为此,一个全局扩散模型被用于在整个时序信息的基础上生辰关键帧,一个局部扩散模型用于逐步修复相邻帧之间的内容差异。尽管这一方法看起来较为简单,但却可以实现3376帧长视频的训练。为了测试NUWA-XL,作者构建了FlintstonesHD数据集。实验效果证明,NUWA-XL不仅可以生成高质量的长视频,还可以将推理时间较少94.26%,即从7.55分钟减少到26秒。
标题:NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation
作者:Shengming Yin, Chenfei Wu, Huan Yang(微软高级研究员), Jianfeng Wang, Xiaodong Wang, Minheng Ni, Zhengyuan Yang, Linjie Li(微软高级研究员), Shuguang Liu, Fan Yang, Jianlong Fu, Gong Ming, Lijuan Wang, Zicheng Liu(Paterner Research Manager of Microsoft), Houqiang Li(中科大教授,杰青,长江学者), Nan Duan(微软亚洲研究院首席研究员)
论文:https://arxiv.org/pdf/2303.12346.pdf
项目:https://msra-nuwa.azurewebsites.net/#/