Farm3D:通过提炼2D扩散来学习关节式3D动物

982次阅读
没有评论

Farm3D: Learning Articulated 3D Animals by Distilling 2D Diffusion

解决问题:该论文旨在通过使用预训练的2D扩散图像生成器的“自由”虚拟监督来学习特定类别的3D重构器,从而解决单视角图像重建3D物体的问题。这是一个新的问题。

关键思路:论文提出了一个使用图像生成器生成虚拟训练数据的框架,用于从头开始学习重构网络。该框架包括将扩散模型作为得分以进一步改善学习。与基于蒸馏的工作不同,该方法可以在几秒钟内从给定的图像生成可控的3D资产,用于单眼重建或合成。

其他亮点:该论文的实验使用了Stable Diffusion数据集,并开源了代码。该论文的方法可以应用于实时应用程序,如视频游戏。这项工作值得继续深入研究。

关于作者:Tomas Jakab、Ruining Li、Shangzhe Wu、Christian Rupprecht和Andrea Vedaldi都是计算机视觉领域的专家。Tomas Jakab曾在ICCV、CVPR和ECCV等会议上发表过多篇论文,Ruining Li曾在CVPR和ICCV等会议上发表过多篇论文,Andrea Vedaldi是MatConvNet框架的创始人。

相关研究:最近的相关研究包括:“Single-View 3D Object Reconstruction with Visual Hull Embedding”(作者:Chen-Hsuan Lin、Chen Kong、Simon Lucey,机构:卡内基梅隆大学)和“DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation”(作者:Jeong Joon Park、Peter Florence、 Julian Straub、Richard Newcombe、Steven Lovegrove,机构:英特尔实验室和牛津大学)。

论文摘要:本文介绍了一种名为Farm3D的方法,该方法可以从预先训练的二维扩散图像生成器的“自由”虚拟监督中完全学习特定类别的三维可动物体的重建器。最近的方法可以学习给定一个物体类别的单视图图像集合,从而预测任何物体出现的三维形状、反照率、照明和视点的单目网络。我们提出了一个框架,使用像稳定扩散这样的图像生成器来生成虚拟训练数据,从头开始学习这样的重建网络。此外,我们将扩散模型作为得分,进一步改善学习。我们的想法是随机化重建的某些方面,例如视点和照明,生成重建的三维物体的合成视图,并让二维网络评估所得图像的质量,为重建器提供反馈。与基于蒸馏的工作不同,后者需要几个小时才能为每个文本提示生成单个三维资产,我们的方法可以在几秒钟内从给定的图像(真实或生成的)输出可控的三维资产的单目重建网络。我们的网络可用于分析,包括单目重建,也可用于合成,生成用于实时应用程序(例如视频游戏)的可动资产。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy