【推荐理由】本文在文本到图像模型中引入了一个扩展的文本条件空间,称为P+。该空间由多个文本条件组成,这些条件源于每个层的提示,每个条件对应于扩散模型的去噪U-net的一层。
P+: Extended Textual Conditioning in Text-to-Image Generation
Andrey Voynov , Qinghao Chu, Daniel Cohen-Or, Kfir Aberman
[Google Research & The Blavatnik School of Computer Science, Tel Aviv University]
【论文链接】https://arxiv.org/pdf/2303.09522.pdf
【项目链接】https://prompt-plus.github.io
【摘要】本文在文本到图像模型中引入了一个扩展的文本条件空间,称为P+。该空间由多个文本条件组成,这些条件是从扩散模型的去噪U-Net的每个层的提示中派生出来的。作者展示了扩展空间提供了更大的分离和对图像合成的控制。文章进一步引入了扩展文本反演(XTI),其中图像被反演到P+中,并由每个层的标记表示。作者展示了XTI比原始文本反演(TI)空间更具表现力和精度,并且收敛更快。扩展反演方法不涉及任何明显的重构和可编辑性之间的权衡,并引入了更规则的反演。文章进行了一系列广泛的实验,以分析和理解新空间的属性,并展示了作者的方法在个性化文本到图像模型方面的有效性。此外,作者利用这个空间的独特特性,在使用文本到图像模型进行对象风格混合方面实现了以前无法实现的结果。
正文完
可以使用微信扫码关注公众号(ID:xzluomor)