推荐理由:InstantBooth,一种建立在预先训练好的文本-图像模型上的新方法,能够实现即时的文本指导的图像个性化,而不需要任何测试时间的微调。
标题:InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning
作者:Jing Shi, Wei Xiong, Zhe Lin, Hyun Joon Jung
[Adobe Inc]
简介:
最近在个性化图像生成方面的进展允许预先训练的文本-图像模型从一组图像中学习一个新的概念。然而,现有的个性化方法通常需要对每个概念进行大量的测试时间微调,这既费时又难以扩展。
我们提出了InstantBooth,一种建立在预先训练好的文本-图像模型上的新方法,能够实现即时的文本指导的图像个性化,而不需要任何测试时间的微调。
我们通过几个主要部分实现这一目标。首先,我们通过用可学习的图像编码器将输入的图像转换为文本标记来学习其一般概念。其次,为了保持身份的精细细节,我们通过向预训练的模型引入一些适配器层来学习丰富的视觉特征表示。我们只在文本-图像对上训练我们的组件,而不使用同一概念的成对的图像。与DreamBooth和Textual-Inversion等基于测试时间的微调方法相比,我们的模型可以在有关语言-图像对齐、图像保真度和身份保留的未见过的概念上产生有竞争力的结果,同时速度快100倍。
https://arxiv.org/pdf/2304.03411.pdf
正文完
可以使用微信扫码关注公众号(ID:xzluomor)