探究深度神经网络中三维泛化性质的本质

597次阅读
没有评论

Investigating the Nature of 3D Generalization in Deep Neural Networks

解决问题:本文旨在研究深度神经网络在新颖视角下的3D泛化能力,并探究其泛化机制。相比之前的研究,本文提出了一种新的视角。

关键思路:本文通过将3D对象的不同2D视角作为输入,以3D对象作为标签,将3D泛化能力建模为一个监督分类任务,并比较了三种泛化模型的表现。实验结果表明,深度神经网络的泛化能力优于纯2D匹配,但不是基于全面的3D结构或线性插值。这些发现有助于设计需要实现3D泛化的2D视角数据集。

其他亮点:本文提供了代码的开源,代码地址为https://github.com/shoaibahmed/investigating3dgeneralization.git。作者通过实验对深度神经网络的3D泛化能力进行了详细的探究,并提出了新的研究视角。

关于作者:Shoaib Ahmed Siddiqui、David Krueger和Thomas Breuel的主要机构是德国马普学会计算机科学研究所。他们之前的代表作包括:Siddiqui的“Unsupervised Deep Learning for Bayesian Brain MRI Segmentation”,Krueger的“Regularizing Deep Networks using Efficient Layerwise Adversarial Training”,Breuel的“High Performance OCR for Printed English and Fraktur using LSTM Networks”。

相关研究:近期其他相关的研究包括:Tianyu Pang等人的“Generalizing to Unseen Domains via Adversarial Data Augmentation”,以及Chen-Hsuan Lin等人的“Learning Efficient Point Cloud Generation for Dense 3D Object Reconstruction”。前者主要研究通过对抗性数据增强实现对未知领域的泛化,后者主要研究如何学习高效的点云生成方法来实现稠密的3D物体重建。两篇文章的作者分别来自华盛顿大学和加州大学伯克利分校。

论文摘要:本文研究了深度神经网络在三维物体识别中的泛化能力。视觉物体识别系统需要从一组二维训练视图推广到新的视图。人类视觉系统如何推广到新的视图已经在心理学、计算机视觉和神经科学中进行了研究和建模。现代深度学习架构用于物体识别在新视图下具有良好的泛化能力,但机制尚不清楚。本文将这种泛化能力表述为一种监督分类任务,其中标签对应于唯一的三维物体,示例对应于不同三维方向的物体的二维视图。考虑了三种常见的新视图泛化模型:(i)完全三维泛化,(ii)纯二维匹配和(iii)基于视图线性组合的匹配。我们发现,深度模型在新视图下具有良好的泛化能力,但其方式与所有这些现有模型不同。超出训练集中视图范围的外推有限,对于新的旋转轴的外推甚至更有限,这意味着网络没有推断出完整的三维结构,也没有使用线性插值。然而,泛化能力远远优于纯二维匹配。这些发现有助于设计需要实现三维泛化的二维视图数据集。我们的实验代码公开在https://github.com/shoaibahmed/investigating3dgeneralization.git。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy