补丁扩散:更快、更节省数据的扩散模型训练

639次阅读
没有评论

Patch Diffusion: Faster and More Data-Efficient Training of Diffusion
Models

解决问题:本篇论文旨在解决扩大扩散模型训练范围所面临的时间和数据成本问题,提出了一种新的、基于补丁的训练框架——Patch Diffusion。

关键思路:Patch Diffusion的关键思路是在补丁级别上引入新的条件得分函数,其中包括原始图像中的补丁位置作为附加坐标通道,而补丁大小则在训练过程中随机和多样化,以编码多尺度的跨区域依赖关系。与当前领域的研究相比,Patch Diffusion的创新之处在于其使用了新的训练策略,可以显著降低训练时间成本,同时提高数据效率。

其他亮点:本篇论文的实验结果表明,Patch Diffusion可以实现比原始扩散模型更快的训练速度,同时在生成质量方面保持相当或更好的性能。此外,Patch Diffusion可以提高相对较小数据集(如仅有5000张图像)上训练的扩散模型的性能。本文在CelebA-64×64和AFHQv2-Wild-64×64数据集上实现了最先进的FID分数(分别为1.77和1.93)。作者将很快分享他们的代码和预训练模型。

关于作者:本文的主要作者包括Zhendong Wang、Yifan Jiang、Huangjie Zheng、Peihao Wang、Pengcheng He和Zhangyang Wang。他们分别来自美国多所知名高校和机构,如华盛顿大学、加州大学洛杉矶分校、纽约大学等。他们的代表作包括:DeepVO、DeepMVS、DeepSDF等。

相关研究:近期的相关研究包括:

  1. “Improved Denoising Diffusion Probabilistic Models”,作者为Jonathan Ho,Aravind Srinivas,等,来自斯坦福大学。
  2. “Image Generation from Sketch Constraint Using Diffusion Probabilistic Models”,作者为Zhangyang Wang,Yuyang Xie,等,来自纽约大学。

论文摘要:本文提出了 Patch Diffusion,这是一个通用的基于 patch 的训练框架,可以显著降低训练时间成本,同时提高数据效率,从而帮助更广泛的用户进行扩散模型的训练。我们创新的核心是在 patch 级别引入了一个新的条件得分函数,其中包括原始图像中的 patch 位置作为附加的坐标通道,而 patch 大小在训练过程中随机化和多样化,以编码多尺度的跨区域依赖性。采样方法与原始扩散模型一样简单。通过 Patch Diffusion,我们可以实现 $mathbf{ge 2times}$ 更快的训练速度,同时保持可比较或更好的生成质量。同时,Patch Diffusion 改善了相对较小的数据集(例如仅 5,000 张图像)训练的扩散模型的性能。我们在 CelebA-64$times$64 和 AFHQv2-Wild-64$times$64 上实现了最先进的 FID 分数,分别为 1.77 和 1.93。我们将很快分享我们的代码和预训练模型。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy