BEVFusion？看UniBEV携CNW融合策略如何一统多模态融合的江湖

1,723次阅读

点击下方卡片，关注「集智书童」公众号

多传感器目标检测是自动驾驶领域的一个活跃研究课题，但这些检测模型对于缺失传感器输入（模态缺失）的鲁棒性，例如由于突然的传感器故障而导致的问题，仍然是一个未被充分研究的关键问题。

在这项工作中提出了UniBEV，这是一个端到端的多模态3D目标检测框架，旨在提高对缺失模态的鲁棒性：UniBEV可以处理激光雷达加摄像头输入，但也可以处理仅激光雷达或仅摄像头的输入而无需重新训练。为了使其检测器头能够处理不同的输入组合，UniBEV旨在从每个可用模态创建良好对齐的鸟瞰视图（BEV）特征图。与以前基于BEV的多模态检测方法不同，所有传感器模态都采用统一的方法，从原生传感器坐标系统重新采样特征到BEV特征中。

此外，作者还研究了各种融合策略对于缺失模态的鲁棒性：通常使用的特征Concat，以及通道级平均和称为通道归一化权重的加权平均的泛化。

为了验证其有效性，作者在nuScenes数据集上比较了UniBEV与最先进的BEVFusion和MetaBEV在所有传感器输入组合上的性能。在这种设置下，UniBEV在所有输入组合的平均mAP上达到了52.5%，显著改善了Baseline方法（BEVFusion的平均mAP为43.5%，MetaBEV的平均mAP为48.7%）。消融研究显示了通过加权平均融合相对于常规Concat以及在每个模态的BEV编码器之间共享 Query 的鲁棒性优势。

1、简介

智能车辆的感知系统通常依赖于多个传感器，包括激光雷达和摄像头，以充分利用它们各自的优势和互补性，以实现稳健的目标检测。例如，摄像头提供丰富的纹理信息，而激光雷达提供具有准确几何信息的密集点云。大多数关于多传感器模型的研究都集中在当所有传感器都可用时实现最佳检测性能。

然而，在理想情况下，一个模型也可以在其其中一个传感器的输入缺失（即模态缺失）时使用，而无需任何重新训练。一个统一的模型，既能处理多传感器输入，又能处理单一传感器输入，将有助于在传感器灾难性故障的情况下（例如连接器断裂）优雅地降级其感知系统，同时也提供了支持不同硬件配置的灵活性（例如具有不同传感器的车辆）。

因此，本研究侧重于设计一种“鲁棒”的多传感器目标检测模型，这里的“鲁棒”指的是经过训练的模型能够融合摄像头和激光雷达信息进行目标检测，同时也能够仅操作于单一模态的能力。

BEVFusion？看UniBEV携CNW融合策略如何一统多模态融合的江湖

最近在自动驾驶领域的多传感器目标检测中，最先进的技术利用密集的鸟瞰视图（BEV）特征作为中间表示来整合多传感器信息，然后可以由通用目标检测头使用。BEVFusion是将激光雷达和摄像头的多模态BEV特征融合的先驱者。它使用两个独立的分支来分别提取每个模态的BEV特征，然后通过Concat将这些特征融合，如图1（a）所示。

值得注意的是，BEVFusion中摄像头和激光雷达分支的设计是不统一的：摄像头分支依赖于一种Lift-Splat-Shoot（LSS）组件来明确预测图像特征的深度分布，并将它们从其本机摄像头坐标映射到空间BEV坐标。相反，激光雷达分支已经在空间坐标中表达其特征，因此不需要额外的转换来编码其BEV特征。这可能导致摄像头和激光雷达BEV特征的不对齐，因为它们是以不同的方式提取的。

最近，MetaBEV在BEVFusion的基础上通过将其Concat替换为具有多个可变形注意力层的可学习模块来改进特征对齐，但仍然保留了BEVFusion的BEV特征编码器方法，如图1（b）所示。由于特征不对齐问题并没有真正解决，因此融合推断的增益有限。

作者认为，对于“鲁棒”的多模态3D目标检测，即对于多传感器和单传感器输入而无需重新训练，重要的是所有传感器模态的BEV表示能够很好地对齐。因此，作者提出了一种新的端到端模型，称为UniBEV，如图1（c）所示，它重新审视了几个关键的架构设计选择，以改善特征对齐：首先，它使用统一的可变形注意力架构来构建摄像头和激光雷达分支的BEV特征，避免了需要类似于LSS的显式深度预测的摄像头专用组件。

现在，两个分支都使用可变形注意力来构建它们的BEV特征，学到的 Query 可以在两个分支之间共享，进一步促进特征对齐并提供两个分支之间的交互。其次，为了融合多传感器特征，作者研究了使用简单的平均而不是Concat来避免在仅有一个传感器可用时将一半特征置零的问题。作者还提出了一种称为通道归一化权重（CNW）的特征通道的学习加权平均的扩展。

作者的主要贡献如下：

提出了UniBEV，一个多模态3D目标检测模型，旨在提高对模态缺失的鲁棒性。其检测头可以在所有模态的融合BEV特征图上工作。与以前的检测器不同，它将多模态BEV特征图融合起来的方式在所有模态中采用统一的方法，将传感器特定的特征图编码到共享的BEV特征空间中，这有助于不同模态之间的对齐。在nuScenes上的实验表明，UniBEV比SotA BEVFusion和MetaBEV更具鲁棒性。
研究了各种特征融合策略的影响：Concat、平均和作者称之为通道归一化权重（CNW）的特征通道的简单加权平均的扩展。对于相同数量的特征通道，当考虑模态缺失时，CNW的性能比常用的特征Concat融合更好。
研究了在所有模态的BEV编码器之间共享BEV Query与使用单独的 Query 之间的影响，并展示了所有输入组合的一致小改进。

2、相关工作

每种传感器类型在现实驾驶场景中都具有特定的限制，因此近年来，多模态3D目标检测引起了广泛关注，尤其是摄像头和激光雷达之间的融合。然而，由于摄像头和激光雷达特征定义在不同的坐标系中，它们之间的对齐是具有挑战性的。一些方法直接从它们的本机坐标中融合多模态特征，使用一些专门设计的组件，如注意力。DeepFusion是其中代表性的工作，它简单地在多模态特征上执行交叉注意力，以激光雷达特征作为 Query ，以摄像头特征作为Key和Value。FUTR3D将DETR3D和Object DGCNN的思想引入了多模态领域。在具有摄像头外部参数的先验知识的基础上，FUTR3D利用共享的物体 Query 与多视图图像特征和激光雷达BEV特征交互，以采样实例级特征。

其他最新方法构建了一个统一的中间BEV表示，以对齐和融合多模态特征。Deepinteraction, EA-LSS 这种BEV表示的好处是它们可以通过不同的网络Head执行各种任务，例如同时进行目标检测和BEV地图分割。BEVFusion使用Lift-Splat-Shoot (LSS) 来预测图像深度分布并将图像特征投影到BEV中，然后使用常规的点云体素化方法，例如PointPillars或CenterPoint，从激光雷达点云中提取BEV特征。多模态BEV特征图通过Concat进行融合。MetaBEV将BEVFusion的融合模块升级为基于可变形注意力的融合块。Deepfusion 使用简单的求和融合模块来整合跨模态BEV特征，并在长距离上取得了令人满意的性能。在本研究中，作者的重点主要是在BEV特征领域内的对齐，以应对缺失传感器情景带来的挑战。

一些工作已经着眼于提高对模态缺失的鲁棒性。这些方法通过在训练过程中应用模态丢失（Modality Dropout）来提高鲁棒性，即在一些训练样本中，其中一个传感器的输入被省略。在本文中，作者专注于这种模态丢失设置，并探讨了在同时呈现两种或仅一种输入模态时，模型的整体测试性能。

3、方法学

作者现在描述作者的新架构UniBEV，用于稳健的激光雷达-摄像头3D目标检测。如图2所示，UniBEV包括四个部分：特征提取器、统一BEV编码器、融合模块和检测头。每个部分将在下面的子节中进行描述。

A. 特征提取器

对于初始特征提取，UniBEV的设计与以前的工作类似，依赖于常见的图像/点云Backbone网络。按照以前的工作，来自个摄像头视图的图像被输入到图像Backbone网络中，例如ResNet-101。这导致图像特征，其中是本机图像坐标中特征图的分辨率，是特征维度。

类似地，LiDAR扫描通过常规的点云Backbone网络进行处理，例如VoxelNet，它将点云体素化并提取鸟瞰视图中的网格形状特征，其中、和分别是特征的空间形状和维度。

B. 统一BEV特征编码器

在特征提取之后，FL和FC仍然以不同的坐标系表示。FL表示在与目标BEV空间类似的3D空间坐标中，而FC使用2D图像坐标。现有方法通常进一步将图像特征转换为Bird’s Eye View（BEV）中的坐标，并通过Concat简单地融合两个BEV特征。BEVFusion, BEV-Fusion4D 作者认为，这些分支之间的网络架构差异可能会影响摄像头和激光雷达BEV特征的对齐。

此外，在一个模态缺失时，Concat特征需要填充零。因此，解码器Head将在具体的输入可用性下操作高度不同的BEV特征，这可能会影响其对模态缺失的鲁棒性。因此，UniBEV对于所有传感器模态采用统一设计，以获得更好的BEV特征对齐，下面将进一步解释。

Query ：

首先，定义了一组可学习的BEV Query向量，带有关联的3D空间位置。这些 Query 由所有模态共享（作者的消融研究也将考虑每种模态的单独 Query ）。作者将可学习参数定义为BEV Query，其中表示车辆本地空间坐标中的2D BEV空间网格分辨率，是BEV Query中的通道数。包含相应的BEV参考点的空间坐标，作为齐次坐标。

请注意，D个参考位置在每个Q中的2D Query 位置的柱中沿方向定义。作者将使用来表示仅包含级别的引用。

投影：

BEVFusion？看UniBEV携CNW融合策略如何一统多模态融合的江湖

BEV空间位置R被投影到每种模态特征图的本机空间坐标系中，如图2所示，类似于FUTR3D。也就是说，对于每个摄像头的特征图，3D点R被投影到其2D基于图像的坐标，其中是由其齐次投影矩阵表示的已知摄像头外参。

类似地，将参考点投影到激光雷达特征图的空间坐标，例如用于调整空间分辨率，尽管在实践中通常是一个恒等函数。

编码：

最后，每种模态的BEV特征图是使用3层可变形自注意力和BEV Query与传感器特征图之间的可变形交叉注意力来构建的。摄像头BEV编码器的第一层的特征图通过对所有可见的参考位置和每个 Query 的所有D位置进行求和得到，

BEVFusion？看UniBEV携CNW融合策略如何一统多模态融合的江湖

其中DeformAttn是可变形交叉注意力。最后一层的输出是传递给融合模块的最终摄像头BEV特征图。

与摄像头相对应，激光雷达BEV编码器执行相同的操作，其第一个特征图同样如上所述。

BEVFusion？看UniBEV携CNW融合策略如何一统多模态融合的江湖

需要注意的是，由于可变形注意力的工作方式，和都会保留初始Q的大小。

C. 融合模块：通道归一化权重

在多模态3D目标检测方法的大多数情况下BEVFusion，Futr3d，CMT，BEV-Fusion4D，沿着特征维度的Concat被用作融合不同模态特征的方法，其目标是保留最大量的信息。然而，如果考虑到某个传感器输入缺失的情况，Concat融合就变得无法定义，因为提供给解码器的融合通道数量不应该发生变化。必须通过使用占位值来填补缺失的输入来补偿。通常情况下，这些占位值都是零。

作者将调查一种简单的替代方法，即通过对所有可用的模态特征图进行平均（或求和Deepfusion）来融合BEV特征图。一方面，平均会冒着将更可靠传感器的信息与不太可靠传感器的信息混合的风险。另一方面，这种融合策略永远不需要使用占位符值，并确保融合的BEV特征图始终具有与每种模态BEV特征图相同数量的通道，即使一个输入模态缺失。

作者还提出了平均融合的一种泛化方法，称为通道归一化权重（CNW）。CNW为每种模态m学习一个N维权重向量，训练后保持不变。中的第个元素表示模态对第个通道的融合结果的相对重要性。在融合之前，将权重进行归一化（表示为）以考虑所有可用的传感器模态，以便它们在每个通道上求和为1。因此，对于两种模态，激光雷达和摄像头，，s.t.

BEVFusion？看UniBEV携CNW融合策略如何一统多模态融合的江湖

其中⊙表示沿空间维度进行隐含广播的通道逐元素乘法。如果只有一个传感器模态可用，则对每个通道应用，归一化将减小到将完全权重分配给该模态，例如。

可以看出，当和中学习的通道权重接近1/2时，CNW会减小到平均融合。另一方面，CNW也可以通过允许融合输出中的通道仅从一个模态获取信息来反映Concat融合，如果这些通道的学习权重仅接近0或1。

从直觉上讲，CNW增加了一小部分可学习参数，以使模型在这些特殊情况之间具有更多的灵活性，使其能够优化每种模态对融合的相对重要性，并仍然允许单一模态输入的有意义的值。作者的实验结果将显示UniBEV构建了每种模态的BEV特征具有类似的幅度分布，确保作者的CNW能够区分不同通道的重要性，而不是随机的比例函数。

D. 检测头和模态失效策略

根据之前的工作，作者将边界框检测视为一种集合预测问题，并采用BEVFormer的解码器进行3D目标检测任务。为了训练模型以应对传感器失效，作者采用常见的模态丢失（MD）训练策略，CMT。因此，在训练过程中，作者以概率丢弃一个随机模态的BEV特征，或。

4. 实验

B. 多模态3D目标检测

BEVFusion？看UniBEV携CNW融合策略如何一统多模态融合的江湖

表I展示了基于融合的检测器在多模态输入和单模态输入上使用相同训练权重的推理性能。作者的UniBEV的摘要指标（58.7%的NDS和52.5%的mAP）显著优于Baseline方法，表明UniBEV在不同输入模态下更加稳健。

在所有输入模态上，UniBEV的性能均优于其多模态Baseline，对于激光雷达+摄像头融合，达到了68.5%的NDS和64.2%的mAP，特别是仅有摄像头输入时的性能差异显著。尽管使用了更强大的图像Backbone网络，但当仅有摄像头输入时，BEVFusion明显落后于UniBEV。

鉴于BEVFusion的CenterPoint Head和作者的检测头具有相似的检测能力（正如UniBEV L和CenterPoint的性能几乎相同所证明的那样），UniBEV和BEVFusion之间在仅有摄像头时的性能差异可以归因于BEV特征的质量和其融合策略。

BEVFusion？看UniBEV携CNW融合策略如何一统多模态融合的江湖

图3说明，与BEVFusion相比，UniBEV的摄像头和激光雷达BEV特征更清晰地区分了相似的物体位置，并且这些位置更好地在空间上对齐。此外，BEVFusion将LSS用作摄像头BEV编码器，将图像特征投影到BEV特征空间。这在其摄像头BEV特征中施加了一种归纳偏差，而其激光雷达BEV特征中不存在，如六边形轮廓所示。

虽然MetaBEV在所有输入类型上都超过了BEVFusion，因为它具有增强的融合模块，但它在整体上也被UniBEV超越。对于仅激光雷达的情况，MetaBEV的性能与UniBEV相当，这并不奇怪，因为UniBEV和MetaBEV之间的激光雷达分支设计相似。然而，与BEVFusion类似，MetaBEV还采用LSS作为其摄像头BEV编码器。尽管它对两个BEV特征应用了可变形注意力，而不是作者更简单的CNW，但仅仅通过更强大的融合策略不能完全弥补BEV特征的不对齐。

BEVFusion？看UniBEV携CNW融合策略如何一统多模态融合的江湖

为了支持UniBEV和其多模态Baseline之间的比较，作者在图4中展示了一些定性检测结果。例如，作者可以看到，仅摄像头的BEVFusion存在各种假阴性，而MetaBEV往往存在更多的假阳性。

BEVFusion？看UniBEV携CNW融合策略如何一统多模态融合的江湖

图5(a)可视化了UniBEV的N = 256个归一化CNW权重，按从最重要的激光雷达加权到最重要的摄像头加权进行排序，并报告了它们的总加权和。作者观察到摄像头权重之和小于激光雷达权重之和（106.1 < 149.9）。换句话说，学习的融合权重代表总体更依赖于激光雷达而不是摄像头，这与仅激光雷达模型相对于仅摄像头模型的整体性能更好相一致。尽管如此，作者观察到权重值相当多样化。

显然，并不是所有通道都偏好激光雷达，很少有权重接近0.5，这是常规平均融合的默认值。激光雷达对融合结果的整体更高影响可能也可以解释为UniBEV的仅摄像头推理性能略差于UniBEV C，而仅激光雷达推理性能甚至稍优于UniBEV L。

为了验证CNW不仅仅是通过缩放通道来补偿激光雷达和摄像头BEV特征之间不同幅度的方式，图5(b)说明了跨空间图上的平均通道激活分布对于两种模态是相同的。

C. 消融研究

作者在这里讨论了关于不同融合模块和统一BEV Query的消融结果。

1) 不同融合模块的比较:

首先，作者测试了UniBEV在第III-C节中不同融合策略下的性能：Concat（UniBEV cat）、平均（UniBEV avg）和CNW（UniBEV CNW）。

BEVFusion？看UniBEV携CNW融合策略如何一统多模态融合的江湖

表II显示，Concat融合展示了最低的性能，摘要mAP为51.9%。因为缺少一种模态会导致Concat填充多个融合通道为零，这样的缺失信息不能由其余的传感器来补偿。UniBEV avg和UniBEV CNW都避免了在模态丢失时进行零填充，随后将其性能提升到接近的水平，分别达到52.3%和52.5%的mAP。

在评估不同输入模态下的性能时，UniBEV CNW的L+C和仅L性能相对于UniBEV avg有所提高，特别是在仅L性能中，但C仅性能有所下降。作者假设CNW有效地让检测器头更多地依赖于激光雷达的最终融合结果，影响了其仅摄像头性能。

总体而言，CNW和平均融合之间的性能差距似乎较小，如果这种权衡对目标应用有利，这仍然需要进一步研究。