Faster Diffusion | 深入挖掘UNet编码器作用,加速41%采样速度,效果几乎不下降

507次阅读
没有评论

点击下方卡片,关注AIWalker公众号

深度视觉干货,第一时间送达

Faster Diffusion | 深入挖掘UNet编码器作用,加速41%采样速度,效果几乎不下降

https://arxiv.org/pdf/2312.09608.pdf
https://github.com/hutaiHang/Faster-Diffusion

扩散模型中的一个关键组件是用于噪声预测的UNet。虽然一些工作已经探索了UNet解码器的基本属性,但其编码器在很大程度上仍未被探索

  • 我们首次对UNet编码器进行了全面的研究。就其在推理过程中的变化等重要问题提供了不一样的发现:我们发现编码器特征平缓地变化,而解码器特征在不同的时间步长上表现出实质性的变化。这种发现启发了我们忽略某些相邻时间步长的编码器,并循环地将先前时间步长中的编码器特征重新用于解码器
  • 进一步基于这一观察,我们介绍了一种简单而有效的编码器传播方案,以加速针对不同任务集的扩散采样。受益于我们的传播方案,我们能够在某些相邻的时间步长并行地执行解码器
  • 此外,我们引入了一种先验噪声注入方法来改善生成图像中的纹理细节

除了标准的文本到图像任务外,我们还在其他任务上验证了我们的方法:文本到视频、个性化生成和参考引导生成。在不使用任何知识提取技术的情况下,我们的方法将稳定扩散(SD)和DeepFloyd-IF模型的采样速度分别提高了41%和24%,同时保持了高质量的生成性能

Faster Diffusion | 深入挖掘UNet编码器作用,加速41%采样速度,效果几乎不下降

本文出发点

Faster Diffusion | 深入挖掘UNet编码器作用,加速41%采样速度,效果几乎不下降从上述两图可以得出如下两点发现:

  • 时间维度上的特征进化。我们通过实验观察到,编码器特征在相邻的时间步长上表现出细微的变化,而解码器特征在不同的时间步长上表现出显著的变化。具体地,给定预训练的扩散模型,我们迭代地产生潜在代码zt,以及相应的层次特征: 。我们想知道在相邻的时间步长上的层次特征的变化,结果如图2所示。这些曲线显示出类似的趋势:在初始增加之后,变化达到平稳期,然后下降,随后继续增长直至结束。然而,在数量上, 的变化程度明显不同。总之,在整个推理阶段,总体特征变化 小于
  • 跨层维度上的特征进化。我们通过实验观察到,在所有的时间步长上,编码器和解码器之间的特征特性是显著不同的。对于编码器E,变化的强度是轻微的,而对于解码器D,变化的强度是剧烈的。也就是说:编码器特征具有相对较小的差异,并且在所有时间步长上具有高度的相似性;而解码器特征则急剧演变

那么,我们是否可以在某些特定时间移除编码器模块呢?我们建议在某些时间步省略编码器,并循环重用解码器在以前的时间步的编码器功能。具体来说,我们在时间步t-1(t-1 < T)删除编码器,相应的解码器(包括跳过连接)将编码器E在前一个时间步t的分层输出作为输入,而不是像标准SD采样那样将当前时间步t-1的分层输出作为输入。

  • 当在某个时间步长省略编码器时,我们能够生成类似于标准SD采样的图像;
  • 如果对解码器使用类似的策略,我们发现生成的图像往往无法覆盖文本提示中的某些特定对象。

编码器传播使用来自前一个时间步的编码器输出作为当前解码器的输入,可以在推理时加速扩散模型采样。

本文方案

Faster Diffusion | 深入挖掘UNet编码器作用,加速41%采样速度,效果几乎不下降

上图给出了本文实现方案,如c图对应的均匀编码器传播与e图对应的非均匀编码器传播。该部分信息建议查看代码进一步加深理解~

Faster Diffusion | 深入挖掘UNet编码器作用,加速41%采样速度,效果几乎不下降

虽然编码器传播可以提高推理阶段的效率,但我们观察到它会导致生成结果中的纹理信息的轻微丢失。受相关文献启发,我们提出了一种先验噪声注入策略:它将初始潜码zT结合到后续时间步长的生成过程中,如果t < τ,则遵循zt = zt+α·zT,其中α = 0.003是控制zT影响的尺度参数。我们从τ = 25步开始使用这种注入机制。这种策略性的结合成功地改进了纹理信息。重要的是,它需要的额外计算资源几乎可以忽略不计。这种方法确保了SD和zT注入在频域中生成的结果非常相似,生成的图像保持了所需的保真度

本文实验

Faster Diffusion | 深入挖掘UNet编码器作用,加速41%采样速度,效果几乎不下降Faster Diffusion | 深入挖掘UNet编码器作用,加速41%采样速度,效果几乎不下降

我们显著地加速了扩散采样,而性能下降可以忽略不计。具体来说,

  • 相比标准DDIM采样SD,我们提出的方法减少了27%计算负担(GFLOPs),并大大减少41%采样时间为。
  • 在DeepFloorse-IF中,计算负担和时间的减少分别达到15%和24%。

此外,我们的方法可以与最新的采样技术相结合,如DPM-Solver,DPMSolver++。我们的方法提高了采样效率,同时保持了良好的模型性能,FID和Clipscore值的变化可以忽略不计。我们的方法在不同的采样步骤中实现了良好的性能。重要的是,这些结果表明,我们的方法是正交的,并与这些加速技术兼容

Faster Diffusion | 深入挖掘UNet编码器作用,加速41%采样速度,效果几乎不下降Faster Diffusion | 深入挖掘UNet编码器作用,加速41%采样速度,效果几乎不下降Faster Diffusion | 深入挖掘UNet编码器作用,加速41%采样速度,效果几乎不下降

小结

在本文中,我们研究了UNet中的文本到图像扩散模型的编码器和解码器的特性,发现编码器在很多时间步上是可以忽略的,而解码器在所有时间步上都起着重要的作用。基于这一发现,我们提出了用于有效扩散采样的编码器传播,从而减少了不同生成任务集上的稳定扩散和DeepFloyd-IF的时间。实验结果表明,该方法在保证图像质量的同时,提高了采样效率。但它也存在一定局限性:尽管我们的方法实现了有效的扩散采样,但是当使用有限数量(如5)的采样步骤时,它面临着生成质量的挑战。

AIWalker聚焦底层视觉与基础AI技术,兼顾上下游相关技术领域。扫描下方二维码加微信:AICVerX2,添加「小二」微信,第一时间获取深度视觉相关论文。

请备注研究方向+学校/公司+昵称

Faster Diffusion | 深入挖掘UNet编码器作用,加速41%采样速度,效果几乎不下降

扫码或加微信号: AICVerX2,获取最新底层视觉论文


▲点击上方卡片,关注AIWalker公众号

整理不易,请点赞和在看Faster Diffusion | 深入挖掘UNet编码器作用,加速41%采样速度,效果几乎不下降

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy