英伟达+复旦提出BEVNeXt | CRF深度估计+时序聚合+两阶段解码成就最强BEV模型

699次阅读
没有评论

点击下方卡片,关注「集智书童」公众号

英伟达+复旦提出BEVNeXt | CRF深度估计+时序聚合+两阶段解码成就最强BEV模型

最近, Query 型Transformer解码器的兴起正在重塑基于相机的3D目标检测。这些基于 Query 的解码器已经超越了传统的密集BEV(鸟瞰视角)方法。然而,作者认为密集BEV框架仍然非常重要,因为它们在深度估计和物体定位方面具有出色的能力,能够准确而全面地描绘3D场景。

本文旨在通过引入作者提出的增强组件来解决现有密集BEV基3D目标检测的缺点,这些增强组件包括一个CRF调制的深度估计模块,强制实现目标级别的一致性,一个具有扩展感受野的长期时间聚合模块,以及一个结合透视技术和CRF调制深度嵌入的两阶段物体解码器。这些改进使得一种被称为BEVNeXt的“现代化”密集BEV框架。

在nuScenes基准测试中,BEVNeXt在各种设置下都超过了基于BEV和基于 Query 的框架,实现了最先进的64.2 NDS结果,在nuScenes测试集上。

1 Introduction

基于视觉的3D目标检测是自动驾驶和智能交通系统的关键组件。与可以访问深度数据的LiDAR系统不同,视觉3D目标检测的主要挑战在于准确感知深度,这主要依赖于图像的实证知识。作为检测的一个重要部分,物体定位严重依赖于深度的准确性。精确和可靠的物体定位是3D感知的基石,因为它有助于识别障碍物,为场景预测奠定基础,并导致可靠的规划。

为了利用视觉信息检测3D物体,存在两种主要的研究方向:_密集BEV(鸟瞰视角)方法_和_稀疏 Query 方法_。BEV方法将图像特征图转换为统一的密集鸟瞰视角特征图,并在此特征图上应用检测解码器。相比之下,稀疏 Query 方法学习一组物体 Query ,它们关注稀疏的前景物体而不是背景细节,然后通过利用目标 Query 和图像特征以及目标 Query 之间的多个阶段的交叉注意力以及目标 Query 之间的自注意力来预测3D物体。

尽管最近的 Query 方法在性能上超过了密集BEV方法,但作者认为保留密集特征图对于完整的环境理解是有利的,无论背景还是前景元素。这种特性使得BEV方法适用于密集预测任务,如占用预测。此外,密集处理使它们在物体定位方面具有鲁棒性,如图1所示,与稀疏方法相比定位错误较少。作者认为BEV方法落后于 Query 方法,原因在于网络设计和训练技术的不足。在此基础上,作者总结了经典密集BEV方法的主要缺陷如下:

2D建模不足。最近,稀疏 Query 方法已经证明,改进的2D建模可以显著提高检测精度。在密集BEV方法中,提高2D建模的努力包括一个由LiDAR输入监督的辅助深度估计任务。然而,由于激光点的低分辨率,这种影响受到限制,导致深度感知不准确和模型性能不佳。

时间建模不足。BEV框架通常具有有限的时间建模能力,这在基于视觉的3D检测器中尤为重要。在时间融合期间,在动态3D空间中建立大的感受野是关键,尤其是在自动驾驶车辆和周围物体运动时。Query 方法可以通过全局注意力机制轻松实现这一点,而BEV方法则受到卷积的局部性限制。

提升中的特征扭曲。在密集BEV-based方法中,特征扭曲是特征图在不同坐标系和分辨率下转换的自然后果。另一方面,稀疏 Query 方法不受影响,因为它们关注的是2D空间中的图像特征图而不是转换后的特征,从而避免了特征扭曲。

作者提出了BEVNeXt,一种现代化的密集BEV框架用于3D目标检测,包括三个主要组件:

  1. 首先,作者使用条件随机场(CRF)来增强深度精度并解决深度监督挑战,将深度概率与颜色信息集成在一起,无需额外的监督或显著的计算成本。
  2. 其次,Res2Fusion模块,受到Res2Net卷积块的启发,在动态3D设置中扩展了感受野。
  3. 第三,利用预测的深度信息,作者开发了一个两阶段的物体解码器。这个解码器将稀疏 Query 方法的精神与增强的深度嵌入相结合,使用深度关注的2D语义来改进实例级别的BEV特征。

总之,这些元素使得BEVNeXt成为一个更强大的目标检测和定位框架。

英伟达+复旦提出BEVNeXt | CRF深度估计+时序聚合+两阶段解码成就最强BEV模型

作者在nuScenes数据集上进行了深入的实验。如图1所示,BEVNeXt在验证集和测试集上分别实现了最高的56.0% NDS和64.2% NDS,以及最低的mATE,与所有先前的方法相比,展示了其卓越的综合性能和3D物体定位的准确性。具体而言,BEVNeXt在验证集和测试集上分别比先前的最先进的BEV-based SOLOFusion提高了2.6%和2.3%。

2 Related Work

Dense BEV-based 3D Object Detection

自从LSS引入将2D图像特征提升到BEV空间的概念以来,一个专门致力于改进3D目标检测和其他感知任务(例如地图分割,占用预测)的BEV空间质量与效率的研究方向已经出现,称为正向投影。BEVDet系列提出了一种高效的工作流程,在BEV空间中执行3D目标检测,以及短期时间建模以进行速度估计。BEVDepth和BEVStereo分别通过利用来自激光点云的显式监督和立体匹配来推进关键的深度估计过程。

为了扩展其与长期时间信息的兼容性,SOLOFusion采用了一种简单的 ConCat 技术,在历史BEV表示之间进行跨接,表现出卓越的性能,而VideoBEV通过使用重复建模来减轻SOLOFusion的计算预算。然而,它们的长期融合策略存在感受野不足的问题,并依赖于自运动变换来区分静止物体与移动物体,这可能导致动态物体的运动不匹配。作者认为,扩大感受野可以让模型自动区分不同的物体。

反向投影是正向投影的逆操作,一种采样多视图2D特征并将它们填充到BEV空间中的技术。在FB-BEV和FB-OCC中提出的最近进展中,这两种投影技术被统一以获得更强的BEV表示,从而受益于3D目标检测和占用预测。这种技术在作者的物体解码器中使用。

然而,与先前的 work 不同,作者只使用反向投影来优化目标级别的BEV特征,而不是整个BEV表示。此外,这个过程通过CRF调制深度嵌入进行增强,证明了对属性预测有益。

Sparse Query-based 3D Object Detection

遵循基于 Query 的2D目标检测器,出现了一条并行研究途径。这种替代方法通过直接 Query 2D特征来进行3D目标检测,避免了显式3D空间构建的需要。Query 过程通常使用传统的注意力机制进行,如PETR系列或稀疏可变形注意力机制,如Sparse4D系列。

随着SOLOFusion的出现,PETR系列拥抱了长期时间融合的概念并将其集成到基于 Query 的框架中。通过 Query 空间中精心设计的传播算法,StreamPETR与静态或短期对应物相比实现了显著改进。此外,SparseBEV最近的突破表明,这些目标 Query 可以在BEV空间中显式定义,而Far3D通过使用2D目标检测器和深度网络来构建3D Query ,显著扩大了3D目标检测的范围。

这些检测器通常会产生更多的定位错误,因为它们通过交叉注意力机制而不是深度信息来定位物体。与这些方法不同,作者的工作完全依赖于密集BEV框架,这些框架通常在物体定位方面更加健壮。

CRF for Dense Predictions

条件随机场(CRF)长期以来一直是解决密集预测任务(如语义分割和深度估计)的基本工具,早于CNN的广泛应用。随着CNN的出现,CRF作为RNN首先表明CRF可以作为CNN无缝的一部分演变,其工作是根据观察到的图像特征调节最后一个CNN层的像素级概率。在深度估计的背景下,[4]将深度估计视为一个像素分类问题,使其适合CRF的应用,而[36]从连续深度值计算CRF能量。

此外,在弱监督实例分割(WSIS)领域,其中像素级掩码标注不可用,[24, 25]利用CRF来强制具有相似颜色特性的像素之间的预测一致性。

3D Object Detection with LiDAR sensors

激光雷达传感器在3D目标检测中广泛使用,因为它们可以生成可靠的距离信息。这些检测器通常解码从密集编码的BEV特征或从稀疏 Voxel中解码的目标。此外,激光雷达传感器与相机传感器在多模态3D目标检测器中共同使用,因为它们具有互补性质。该领域的进步通常直接应用于密集BEV框架生成的伪点云用于物体解码。

类似地,作者的物体解码器受到了CenterFormer和TransFusion这两阶段中心型检测器的启发。而不是密集关注图像特征或BEV特征,作者的解码器采用了深度引导的视角优化,这是一种基于BEVFormer的增强型空间交叉注意力机制。

3 Method

作者提出了BEVNeXt,一种基于现有LSS方法的增强型密集BEV框架,如图2所示:

英伟达+复旦提出BEVNeXt | CRF深度估计+时序聚合+两阶段解码成就最强BEV模型

BEV生成: 对于多视图图像,backbone提取多 Scale 图像特征,记为,这些特征通过深度网络处理得到深度概率。为了提高BEV特征的空间精度,使用CRF层调节与图像颜色信息,得到深度概率,这些概率在目标级别上是一致的。然后,View Transformer使用特征和调制后的深度概率在当前时间戳计算BEV特征

BEV编码器: BEV编码器旨在将跨越帧的历史BEV特征融合为一个统一的。聚合过程需要对动态3D环境具有足够的感受野,这在作者的Res2Fusion模块中得到满足。遵循BEVDet,进一步与CNN和FPN处理以产生多 Scale 信息。

检测Head: 最后,一个基于中心的3D目标检测Head[65]处理BEV Encoder的输出,将BEV表示解码为3D物体。使用CRF调制的深度概率作为嵌入,以帮助物体解码器关注判别性的2D特征。

在本节剩余部分中,作者将详细阐述这些组件的具体增强,按检测管线的顺序进行。

CRF-modulated Depth Estimation

在密集BEV-based方法中,深度估计作为一个2D辅助任务,可以提高2D建模,并有可能在提升过程中帮助防止特征扭曲。因此,获得准确且更高分辨率的深度预测是有益的。将深度估计视为一个分割任务,其中每个类别代表一个特定的深度范围,作者可以使用条件随机场(CRF)来增强深度估计的质量。

作者旨在使用CRF调制的深度估计来减轻深度监督不足的问题,通过施加颜色平滑先验,这强制在像素级别保持深度一致性。令表示由步长为的采样得到的下采样特征图中的个像素,并令表示个离散深度区间。深度网络的责任是将每个像素分配到各种深度区间,表示为。相机索引被忽略以方便。给定这种分配,作者的目标是使其对应的最小能量成本最小化,定义如下:

在这个公式中,是单核势,衡量深度网络初始输出的成本。在参考先前的研究的基础上,作者定义了配对势:

在这个公式中,分别表示与降采样步长匹配的图像块的平均RGB颜色值。此外,是两个深度bin之间的标签兼容性,它衡量了它们在实际 Scale 上的中心距离。CRF附加在深度网络作为额外的层。作者将CRF调制的深度概率表示为

在现有的依赖显式深度监督的BEV-based解决方案中,如BEVDepth和SOLOFusion,深度网络通常在的特征图上处理特征图。对于低分辨率输入,有密集的深度标签覆盖,但以激进的下采样为代价,丢弃了许多标签。这反过来又削弱了作者的CRF调制深度估计的有效性,如Tab.3所示。

为了证明在分辨率限制下作者的方法的有效性,作者的深度网络在将特征图大小减半的同时,在更大的特征图()上运行。然而,随着输入分辨率的增长,CRF调制的优势变得越来越明显,如Tab.3所示。

Res2Fusion

密集BEV-based方法将当前BEV表示与过去的表示在延长的时间段内进行融合,这对于感知动态3D场景至关重要,尤其是在物体位置在长时间窗口中显著改变的情况下。然而,在BEV空间中扩展感受野是具有挑战性的;简单地增加核大小会导致计算过度和均匀3D环境中过拟合的风险。

英伟达+复旦提出BEVNeXt | CRF深度估计+时序聚合+两阶段解码成就最强BEV模型

为了解决这些问题,作者开发了一种名为Res2Fusion的时间聚合技术,如图3所示。它通过将Res2Net架构中的多 Scale 卷积块集成来扩大感受野。给定当前帧中的个历史BEV特征,其中表示当前帧的BEV特征,作者首先将相邻的BEV特征划分为组,其中是固定的窗口大小。窗口大小决定了聚合享有的短期局部性。在窗口划分之后,使用卷积分别处理这些组,可以表示为:

其中表示连接操作。接下来,使用[12]提出的多 Scale 卷积:

英伟达+复旦提出BEVNeXt | CRF深度估计+时序聚合+两阶段解码成就最强BEV模型

增加的感受野,从而允许作者在历史BEV之间跳过自运动变换,避免了先前技术中[20]的运动不匹配问题[13, 48]。最后,Res2Fusion模块的输出可以表示为:

Object Decoder with Perspective Refinement

有了统一的BEV表示,作者将其应用到基于LiDAR的3D目标检测Head(例如CenterPoint Head)上进行最终检测。然而,前向投影会扭曲2D特征,导致离散和稀疏的BEV表示,如在FB-BEV中观察到的那样。因此,作者使用视角优化来补偿扭曲,并在回归ROI(感兴趣区域)的BEV特征到目标属性之前对其进行校正。

在物体解码器中,作者遵循CenterPoint的方法计算目标热力图,将BEV编码器的输出应用卷积和 sigmoid 函数进行计算。热力图包含个通道,对应于个目标类别。在进行属性回归时,作者首先从中的目标中心采样特征,其中是一个热力图阈值。

作为CenterPoint中的回归头通常由三个卷积层组成(其中一个是所有头共用的),作者将扩展到,同时考虑每个元素在中的邻域。与一组可学习的 Query 一起,特征集然后通过一个空间交叉注意力层进行视角优化,该层遵循:

其中是可变形注意力函数,是参考点,被提升到高度。为了引入深度指导,作者将2D特征与CRF调制的深度概率进行嵌入,这些深度概率在利用颜色信息后是目标一致的:

最后,CenterPoint中的回归头将优化后的特征集回归到最终的物体属性。

4 Experiments

Implementation Details

作者的BEVNeXt是基于BEVPoolv2构建的,它是一个密集BEV-based框架,采用最先进的正向投影技术并集成来自BEVDepth的相机感知深度网络。BEVPoolv2也被用作以下实验的基准模型。默认配置中,作者使用ResNet50作为图像backbone,多视图图像的输入分辨率是,BEV空间的网格大小是。只有在使用更大的backbone(例如ResNet101,VitAdapter-L,V2-99)时,BEV分辨率才增加到

为了最大限度地发挥CRF调制的效果,如在3.1节中提到的那样,深度网络在输入分辨率是时在上运行,以产生比其他情况下更细粒度的深度概率,而在其他情况下在上运行。当考虑将历史时间信息纳入考虑时,除了当前帧外,作者还计算了过去8帧的BEV特征,组织成3个BEV组,窗口大小为3的Res2Fusion。

对于训练设置,作者的模型使用BEV和图像的数据增强进行训练,如在BEVDet中介绍的那样,默认使用CBGS策略训练12个epoch。当使用ViT-Adapter-L和V2-99作为图像backbone时,由于防止过拟合,采用了6个epoch的较短训练周期。作者使用AdamW优化器和总批量大小为64。训练过程与BEVDepth一致,深度网络和检测Head在监督下同时进行优化。

Datasets and Metrics

作者在nuScenes数据集上进行了广泛的评估,该数据集是一个大规模的多模态数据集,涵盖1000个不同的场景。这些场景使用32束激光雷达、六个周围视角摄像头和五个雷达以2Hz的频率进行记录,并在2Hz的频率下进行标注。

作者的评估基于nuScenes的评估指标,包括平均精确率(mAP)、平均平均转换误差(mATE)、平均平均弦误差(mASE)、平均平均方位角误差(mAOE)、平均平均速度误差(mAVE)和平均平均属性误差(mAAE)。最终的nuScenes检测分数(NDS)是上述指标的综合测量。

Main Results

表1展示了在nuScenes数据集的验证分割上的详细检测性能。具体而言,使用ResNet50 backbones和输入分辨率,BEVNeXt在BEV-based SOLOFusion上取得了明显的优势,NDS提高了2.6%,mAP提高了2.9%。此外,与最近提出的 Query 型SparseBEV以及带视角预训练的Sparse4Dv2相比,BEVNeXt在轻量级设置下的检测能力也超过了它们。

英伟达+复旦提出BEVNeXt | CRF深度估计+时序聚合+两阶段解码成就最强BEV模型

此外,使用ViT-Adapter-L,BEVNeXt在val分割上超过了强大的 Query 型框架Far3D,实现了62.2%的NDS,同时使用V2-99,BEVNeXt在测试分割上超过了所有先前的方法,实现了5.3%更少的mATE,证明了其在物体定位方面的优越性。

英伟达+复旦提出BEVNeXt | CRF深度估计+时序聚合+两阶段解码成就最强BEV模型

在新场景的测试分割上,表2表明,在相同的输入分辨率为640×1600下,BEVNeXt的V2-99主干的性能优于之前的所有方法。

具体来说,BEVNeXt比基于BEV的SOLOFusion多2.3% NDS,比基于查询的Sparse4Dv2多0.4% NDS。同时,BEVNeXt产生的翻译误差(即mATE)始终较少,证明了其在目标定位方面的优越性。特别是,与Sparse4Dv2相比,BEVNeXt实现的数学数据减少了5.3%。

Ablation Studies

对不同组件的消融分析:为了验证作者提出的组件的有效性,作者逐步移除BEVNeXt的不同组件。如图4所示,移除每个组件都会导致NDS和mAP的明显降低。尽管增加特征图 Scale 旨在容纳CRF调制,但作者观察到这种修改本身就会带来性能提升(+0.3% NDS),这也得到了SOLOFusion的局部化潜力分析的证实。BEVNeXt的集成版本相对于 Baseline 带来了2.2%的NDS和3.1%的mAP的整体性能提升。

英伟达+复旦提出BEVNeXt | CRF深度估计+时序聚合+两阶段解码成就最强BEV模型

CRF调制:在表3中,研究了在稀疏监督下CRF调制的作用。当监督已经很密集时,CRF调制的影响微不足道(+0.2% NDS),但在稀疏监督下,它变得非常重要(+1.9% NDS)。

英伟达+复旦提出BEVNeXt | CRF深度估计+时序聚合+两阶段解码成就最强BEV模型

可以证明,CRF调制提供的目标级别一致性全面提升了BEV框架的检测性能,这也证明了使用更大的backbone(例如ResNet101)时的可扩展性(+1.8% NDS)。然而,在长期设置中,由于定位潜力的饱和,改进变得温和,如表4所示。

英伟达+复旦提出BEVNeXt | CRF深度估计+时序聚合+两阶段解码成就最强BEV模型

Res2Fusion的设计:表5展示了Res2Fusion如何受到窗口大小和自运动变换的影响。窗口大小决定了并行处理相邻的BEV数量,这只需要比长期场景中的较小感受野。作者的实验表明,窗口大小为3最大化了Res2Fusion的效果,在短期局部性和长期感受野之间达到了平衡。此外,强制将先前的BEV特征转换为当前时间戳也会导致性能下降,这是由动态目标的不对齐引起的。

英伟达+复旦提出BEVNeXt | CRF深度估计+时序聚合+两阶段解码成就最强BEV模型

深度嵌入的影响:在表6中,作者消融了视角优化模块中深度嵌入的影响。深度嵌入的目的是通过在2D空间中形成目标级别的一致性来帮助3D物体解码器关注判别性特征。当深度由深度网络生成时,存在轻微但正面的影响。然而,当采用CRF调制的深度信息时,作者观察到NDS增加了0.8%,这是对目标属性的预测产生了提升。这种现象也验证了CRF调制的效果。

英伟达+复旦提出BEVNeXt | CRF深度估计+时序聚合+两阶段解码成就最强BEV模型

Visualization and Efficiency Analysis

可视化:作者首先在图4中可视化了CRF调制的深度估计。调制后的深度概率更具边界粘性,并实现了更高的目标级别一致性。此外,它们包含较少的伪影,这些伪影会影响BEV特征的空间准确性。对于视角优化,无论是大型还是小型物体都可以从中受益,如图5所示。与粗糙的目标解码器相比,经过优化的物体在方向上更加准确。

英伟达+复旦提出BEVNeXt | CRF深度估计+时序聚合+两阶段解码成就最强BEV模型

效率分析:如表7所示,作者提出的模块所需的计算量为可忽略或甚至更少,使其适合部署。尽管使用PyTorch fp32后端和RTX 3090时,BEVNeXt在 Query 型StreamPERT之后,但比BEV-based SOLOFusion更快。这可以归因于不存在时间立体,而时间立体在计算上非常昂贵。

英伟达+复旦提出BEVNeXt | CRF深度估计+时序聚合+两阶段解码成就最强BEV模型

5 Conclusion

在这项工作中,作者提出了一种完全增强的密集BEV框架,名为BEVNeXt,用于多视图3D目标检测。作者首先确定了经典密集BEV-based框架的三个缺陷:

  1. 不足的2D建模
  2. 不充分的时序建模
  3. 提升过程中的特征扭曲

为了解决这些固有的问题,作者提出了三个相应的组件:

  1. CRF调制深度估计
  2. Res2Fusion用于长期时序聚合
  3. 具有视角优化的物体解码器

进行了大量实验,表明BEVNeXt在物体定位方面优于稀疏 Query 范式和密集BEV框架,在nuScenes基准测试中取得了新的最先进结果,分别实现了56.0%的NDS和64.2%的NDS。作者希望在本文中重新确立密集BEV-based框架在3D目标检测中的地位,并激发未来对此方向的研究。

局限性:尽管BEVNeXt在性能上超过了现有的稀疏 Query 范式,但在效率方面仍有待提高。将BEV框架集成到长程设置中也存在挑战。作者期待这些问题在未来的研究中得到解决。

参考

[1]. BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy