哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计

485次阅读
没有评论

哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计

Machine Intelligence Research

在三维场景感知领域,深度估计作为核心技术之一,为其他感知决策任务提供关键的环境结构信息。提高单目深度估计模型的准确率有助于实现更准确的三维环境感知,从而增强自动驾驶汽车机器人导航等应用的安全性和可靠性。哈尔滨工业大学江俊君教授团队旨在解决监督单目深度估计的问题。首先,通过一个严谨细致的验证性实验,文章展示了长程关联对精确深度估计的不可或缺性。又因为Transformer和卷积分别擅长长程关联深度估计和局部关联深度估计,因此文章提出采用一种由Transformer分支和卷积分支双支并行的编码器结构。Transformer分支通过有效注意力机制对全局上下文进行建模,但因为Transformer在对这类内容进行建模时缺乏空间归纳偏置,故在这一过程中由卷积分支对局部特征进行提取。但是,独立的分支会导致不同特征之间缺乏交互。为了解决这一问题,文章设计了一个分层聚合和异构交互模块来加强Transformer特征以及以一种集合对集合的变换对异质特征进行建模。由于对高分辨率特征图进行全局注意力计算导致内存开销太大,文章采用可变形策略来降低复杂度。在KITTI, NYU和SUN RGB-D数据集上的大量实验表明,本文提出的DepthFormer模型以显著的优势超越了当前最先进的单目深度估计方法。通过深入的消融研究,文章对每个所提出模块的有效性进行了全面评估。

哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计

哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计

图片来自Springer

全文下载:

DepthFormer: Exploiting Long-range Correlation and Local Information for Accurate Monocular Depth Estimation

Zhenyu Li, Zehui Chen, Xianming Liu, Junjun Jiang

https://link.springer.com/article/10.1007/s11633-023-1458-0

https://www.mi-research.net/en/article/doi/10.1007/s11633-023-1458-0

哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计全文导读

单目深度估计在三维重建和感知中起着至关重要的作用。在深度估计领域,编码器-解码器的结构至关重要,而自《用于图像识别的深度残差学习》中富有开创性的应用以来,卷积神经网络(CNN)就一直在深度估计领域中被用作主流方法。尽管有关解码器设计的研究数量众多,但最近研究表明,编码器对于精确深度估计更为关键。由于缺乏深度线索,充分利用长程关联(比如不同对象间的距离关系)和局部信息(如同一对象的一致性)是一个有效编码器的关键能力。因此,当前深度估计方法的潜在瓶颈可能在于编码器中有限感受野的卷积算子几乎无法长程关联进行建模。

为了克服上述局限,研究者们在CNN上进行了了大量努力,大致可分为两类:操作卷积算子和融合注意力机制。前者应用了包括多尺度融合、空洞卷积和特征金字塔在内的高级变体来提高卷积算子的效率。后者引入注意力模块来对特征图中所有像素进行全局交互建模。也有一些尝试将两种策略结合起来的通用方法尝试。尽管这些方法取得了显著的改进,但仍然面临相同的困境。

作为CNN的替代物,在图像识别领域取得了巨大成功的Vision Transformer(ViT)展示了作为深度估计编码器的优势。得益于注意力机制,Transformer更擅长全局感受野长程关联建模。但是本文的验证性实验显示,ViT 编码器由于在对局部信息进行建模时缺乏空间归纳前置,表现并不是很令人满意,从而导致在近程深度估计中的表现也不佳。相较之下,带有卷积编码器的模型对于局部信息能够进行更好的深度预测。虽然目前有些工作考虑将两种分支结合在一起,但这些研究主要关注的还是图像分类等任务。对于深度估计领域,将两者结合在一起的深入研究探讨还是相当缺乏的。

因此,本文提出了一个通过结合Transformer和CNN两者优势来提升深度估算表现的新颖单目深度估计框架,DepthFormer(如图1所示)。DepthFormer的原理在于Transformer分支可以进行长程关联建模而卷积分支可以保持图像的局部信息。本文认为,并行架构的融合有助于实现更准确的深度估计,而进行简单后融合的独立分支会导致解码器的特征聚合不足。

为了改善这一问题,本文设计了层次聚合与异构交互(HAHI)模块来将两个分支各自的优势结合在一起。具体而言,一方面,自注意力模块通过按元素对特征进行交叉运算来加强Transformer分支中不同层次间的特征;另一方面,交叉注意模块将异构特征(即Transformer特征和CNN特征)间的相互关系以集合对集合的变换方式进行建模。因为对高分辨率特征图的全局注意需要的内存开销很大,故本文提出以一种可学习的方式,即采用只关注有限关键样本向量集的可变形方案来缓解这一问题。

本文主要贡献有三:1)设计了一种同时使用长程关联和局部信息的解码器并行结构。2)设计了HAHI来按元素对特征进行交叉运算的方法以加强特征表达能力,同时通过集合对集合的变换方式对相关关系进行建模。3)本文提出的解决方案DepthFormer在KITTI、NYU和SUN RGB-D 数据集上显著优于其他现有模型。而且,DepthFormer在具有竞争力的KITTI深度估计基准上拥有具有竞争力的表现。

哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计

图1 概览:本文设计了一个由Transformer分支和卷积分支并行的编码器结构,其中Transformer负责学习长程关联,而卷积分支负责提取局部信息。为了增加两个分之间的联系,本文还提出用HAHI模块来加强特征与对密切关系进行建模。

全文下载:

DepthFormer: Exploiting Long-range Correlation and Local Information for Accurate Monocular Depth Estimation

Zhenyu Li, Zehui Chen, Xianming Liu, Junjun Jiang

https://link.springer.com/article/10.1007/s11633-023-1458-0

https://www.mi-research.net/en/article/doi/10.1007/s11633-023-1458-0

BibTex:

@Article{MIR-2023-03-030,

author={Zhenyu Li and Zehui Chen and Xianming Liu and Junjun Jiang},

journal={Machine Intelligence Research},

title={DepthFormer: Exploiting Long-range Correlation and Local Information for Accurate Monocular Depth Estimation},

year = {2023},

volume = {20},

number = {6},

pages = {837-854},

doi = {10.1007/s11633-023-1458-0}

}

本文作者

哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计

李震宇

哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计

陈泽徽

哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计

刘贤明

哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计

江俊君

纸刊免费寄送Machine Intelligence Research

MIR为所有读者提供免费寄送纸刊服务,如您对本篇文章感兴趣,请点击下方链接填写收件地址,编辑部将尽快为您免费寄送纸版全文!

说明:如遇特殊原因无法寄达的,将推迟邮寄时间,咨询电话010-82544737

收件信息登记:

https://www.wjx.cn‍/vm/eIyIAAI.aspx#  

关于Machine Intelligence Research

Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选”中国科技期刊卓越行动计划”,已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等数据库收录。



往期目录2023年第5期 | 生成式人工智能系统、智能网联汽车、毫秒级人脸检测器、个性化联邦学习框架… (机器智能研究MIR)2023年第4期 | 大规模多模态预训练模型、机器翻译、联邦学习……2023年第3期 | 人机对抗智能、边缘智能、掩码图像重建、强化学习… 2023年第2期 · 特约专题 | 大规模预训练: 数据、模型和微调2023年第1期 | 类脑智能机器人、联邦学习、视觉-语言预训练、伪装目标检测… 
2022年第6期 | 因果推理、视觉表征学习、视频息肉分割…
2022年第5期 | 重磅专题:类脑机器学习
2022年第4期 | 来自苏黎世联邦理工学院Luc Van Gool教授团队、清华大学戴琼海院士团队等
2022年第3期 | 聚焦自然语言处理、机器学习等领域;来自复旦大学、中科院自动化所等团队
2022年第2期 | 聚焦知识挖掘、5G、强化学习等领域;来自联想研究院、中科院自动化所等团队
主编谭铁牛院士寄语, MIR第一期正式出版!


好文推荐Luc Van Gool团队 | 通过Swin-Conv-UNet和数据合成实现实用图像盲去噪
贺威团队&王耀南院士团队 | 基于动态运动基元的机器人技能学习乔红院士团队 | 类脑智能机器人:理论分析与系统应用 (机器智能研究MIR)南科大于仕琪团队 | YuNet:一个速度为毫秒级的人脸检测器
上海交大严骏驰团队 | 综述: 求解布尔可满足性问题(SAT)的机器学习方法
西电公茂果团队 | 综述: 多模态数据的联邦学习
高文院士团队 | 综述: 大规模多模态预训练模型
前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究
港中文黄锦辉团队 | 综述: 任务型对话对话策略学习的强化学习方法
南航张道强教授团队 | 综述:用于脑影像基因组学的机器学习方法ETHZ团队 | 一种基于深度梯度学习的高效伪装目标检测方法 (机器智能研究MIR)Luc Van Gool团队 | 深度学习视角下的视频息肉分割专题综述 | 高效的视觉识别: 最新进展及类脑方法综述北大黄铁军团队 | 专题综述:视觉信息的神经解码
专题综述 | 迈向脑启发计算机视觉的新范式
专题好文 | 新型类脑去噪内源生成模型: 解决复杂噪音下的手写数字识别问题戴琼海院士团队 | 用以图像去遮挡的基于事件增强的多模态融合混合网络ETH Zurich重磅综述 | 人脸-素描合成:一个新的挑战华南理工詹志辉团队 | 综述: 面向昂贵优化的进化计算东南大学张敏灵团队 | 基于选择性特征增广的多维分类方法联想CTO芮勇团队 | 知识挖掘:跨领域的综述复旦邱锡鹏团队 | 综述:自然语言处理中的范式转换

MIR资讯最新 | 2023研究前沿及热点解读 (附完整PDF)
前进20名!MIR再度跻身国际影响力TOP期刊榜单2022影响因子发布!人工智能领域最新SCI & ESCI期刊一览喜报 | MIR入选图像图形领域 T2级 “知名期刊”!双喜!MIR入选”2022中国科技核心期刊”,并被DBLP收录 | 机器智能研究MIR报喜!MIR入选2022年国际影响力TOP期刊榜单
喜报 | MIR被 ESCI 收录!喜报 | MIR 被 EI 与 Scopus 数据库收录

哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计

点击”阅读原文”免费下载全文

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy