【推荐理由】本文展示了从大规模text-to-image扩散模型(如 Stable Diffusion)的密度估计可用于执行zero-shot分类,而无需任何额外训练。
Your Diffusion Model is Secretly a Zero-Shot Classifier
Alexander C. Li, Mihir Prabhudesai, Shivam Duggal, Ellis Brown, Deepak Pathak
[Carnegie Mellon University]
【论文链接】https://arxiv.org/pdf/2303.16203.pdf
【项目链接】https://diffusion-classifier.github.io/
【摘要】最近大规模文本到图像扩散模型的浪潮极大地增强了我们基于文本的图像生成能力。这些模型可以为惊人的各种提示生成逼真的图像,并展示了令人印象深刻的组合泛化能力。到目前为止,几乎所有的用例都仅关注抽样;然而,扩散模型也可以提供条件密度估计,这对于超越图像生成的任务非常有用。在本文中,作者展示了大规模文本到图像扩散模型(如Stable Diffusion)的密度估计可以被利用来执行零样本分类,无需任何额外的训练。该分类生成方法在各种基准测试中获得了强大的结果,并优于从扩散模型中提取知识的替代方法。与竞争性对比方法相比,本文基于扩散的方法具有更强的多模态关系推理能力。最后,作者评估了在ImageNet上训练的扩散模型,并发现它们即使在弱增强和没有正则化的情况下也接近于在同一数据集上训练的SOTA判别式分类器的性能。