目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

493次阅读
没有评论

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

事件相机下的目标检测具有低延迟和高动态范围的特点,使其适用于像自动驾驶等安全关键场景。然而,对于高时间分辨率的事件流进行标签化以进行监督训练是昂贵的。作者通过LEOD,第一个用于标签高效的基于事件的目标检测框架,解决了这个问题。

作者的方法将弱监督和半监督目标检测与自训练机制相结合。首先,作者使用在有限标签上预训练的检测器,在未标记的事件上生成伪标签。然后,作者用真实和生成的标签重新训练检测器。利用事件的时序一致性,作者进行双向推断,并应用基于跟踪的后处理,以提高伪标签的质量。为了稳定训练,作者进一步设计了一个Soft Anchor分配策略,以减小标签中的噪声。作者引入了新的实验协议,以评估在Gen1和1Mpx数据集上的标签高效的基于事件的目标检测任务。

LEOD在各种标签比例下,始终优于监督Baseline。例如,在Gen1上,它分别将RVT-S的mAP提高了8.6%和7.8%,当标签为1%和2%时。在1Mpx上,即使使用10%的标签,RVT-S也超过了使用100%标签的完全监督版本。LEOD在所有标记数据都可用时,仍然保持其有效性,并达到新的最先进结果。最后,作者证明本文的方法可以轻松地扩展以改进更大的检测器。

1 Introduction

目标检测是场景理解中的一个关键任务。它将原始传感器测量结果转换为具有语义意义的边界框,从而提供对原始数据的紧凑表示。在安全关键应用中,如自动驾驶,检测速度至关重要。传统相机在帧率和图像分辨率之间存在权衡。在给定固定带宽的情况下,更高的帧率意味着更低的分辨率,这通常会降低检测准确性。

近年来,由于其低成像延迟,事件相机在计算机视觉领域受到了广泛关注。得益于其高动态范围和抗运动模糊的能力,基于事件的目标检测器得到了发展,以补充传统的帧基检测器。尽管取得了巨大的进步,但他们的成功很大程度上依赖于需要手动注释的大数据集。然而,由于事件数据具有高时间分辨率,在每次时间戳处标记对象是不切实际的。这需要检测方法能够在训练过程中利用标记和未标记的时间戳。

在这项工作中,作者通过提出一个Label-efficient Event-based Object Detection (LEOD)框架来解决这个问题。作者考虑了两种设置,它们都具有有限的标签:

  1. 弱监督,其中所有事件流都是稀疏标记的;

  2. 半监督,其中一些事件流被密集标记,而其他事件流仍然完全未标记。

作者的方法通过自训练范式将这两种设置统一起来。在有限标签的情况下,作者首先预训练一个检测器,并使用它来在未标记的事件上生成伪注释。然后,作者在真实和伪标签的组合上重新训练检测器。然而,生成的标签中包含噪声,直接使用它们是不最优的。

为了获得高质量的伪标签,作者利用事件数据的时序维度。最近的工作[31]已经表明,在基于事件的检测中使用循环模块时,时间信息的重要性。离线标签生成进一步使作者能够利用未来信息来优化当前预测。为了实现这一点,作者在训练期间引入了时间反转增强事件。

结果,作者可以通过Test-Time Augmentation (TTA)将模型预测原事件流和反转事件流进行集成,从而实现更高的检测召回率。此外,作者利用基于跟踪的后处理来消除时间不一致的对象,从而提高伪标签的精度。最后,作者使用得分阈值过滤掉低置信度的盒子。

这里的一个关键挑战是如何选择一个合适的阈值。相反,作者首先使用一个较低的阈值来避免遗漏对象。这必然引入许多假阳性,作者通过在训练中使用Soft Anchor分配策略来解决这一问题。在计算检测损失时,作者设置另一个更高的阈值,并将比它更确信的伪框视为正标签。对于得分较低的框,作者忽略与它们相关的Anchor的损失。这种策略确保模型只受到可靠的背景和前景标签的监督,同时对噪声标签具有容忍性。消融研究显示,作者的方法对两个阈值值不敏感,从而简化了超参数调优。

为了测试作者的方法,作者在Gen1和1Mpx数据集上设计了新的协议,用于标签高效的基于事件的目标检测。对于弱监督目标检测(WSOD),作者均匀地将标签在时间上进行子采样,以模拟稀疏注释。对于半监督目标检测(SSOD),作者直接选择一些事件序列作为完全未标记的。

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

遵循2D SSOD,作者也有一个全标签设置,其中所有标签都被使用。LEOD在两个数据集和设置下,对所有标签比例的监督和基本自训练Baseline都带来一致的改进。此外,作者的方法进一步改进了在100%标签上训练的检测器,达到了新的最先进结果。

总之,这项工作做出了四个主要贡献:

  1. 提出了基于事件的标签高效的目标检测任务,并设计了实验协议。
  2. 提出了LEOD,这是一个用于训练具有有限注释的事件基础检测器的统一框架。
  3. 在两个公共检测数据集上,LEOD在各种设置下都优于Baseline。
  4. 作者的方法在完全标记设置下仍然有效,并可扩展到更大的检测器,实现了新的最先进性能。

2 Related Work

基于事件的目标检测。现有的基于事件的目标检测器可以主要分为两类,取决于它们是否利用事件的异步性质。一类工作探索事件的稀疏性,并使用图神经网络(GNNs)或脉冲神经网络(SNNs)进行特征提取。然而,在将这些模块中的信息传播到长期时间距离方面仍然存在挑战,这对于从事件中检测对象至关重要。此外,要实现稀疏网络的理论上更高的速度,需要专门的硬件,限制了它们的应用。

另一种方法是将事件转换为密集的帧像表示,然后使用传统的网络进行检测。早期的工作只考虑了从短时间间隔聚合的事件帧,这忽略了长程范围的历史信息。这使得很难检测具有小相对运动的对象,因为它们触发了非常少的事件。

因此,最近的方法引入了循环模块来增强检测器的记忆,从而大大提高了它们的性能。进一步的研究重点在于更好的Backbone网络,推理速度,和事件表示。相反,作者研究了基于事件的检测器的标签高效的 learn。作者的主要目标是实现高精度,因此作者采用最新的密集表示基于事件检测器RVT作为作者的基础模型。

基于事件的标签高效的视觉学习。由于缺乏大型标记数据集,因此研究具有有限标记的事件基础算法已经出现了许多工作。一些论文关注于帧基础和事件基础视觉之间的桥梁。他们要么从事件中重构自然图像以应用传统深度模型,要么从视频中模拟事件以转移注释,要么从训练好的帧基础模型中提炼知识。

然而,这些方法要么需要事件和图像的配对记录,要么需要大量的领域内标记图像进行训练。与作者的方法更接近的是那些只使用事件数据的方法。他们在预训练的帧基础模型或自监督损失上进行标签高效的event学习。然而,他们中的没有一个是为了检测任务而设计的。作者的工作是第一个尝试基于事件的事件基础目标检测的标签高效的尝试。

其他领域的标签高效的视觉学习。基于自训练的方法已在诸如2D图像分类,目标检测和分割等领域得到探索。作者的方法与利用输入数据的时间信息的标签高效的视频和3D点云序列的方法更为相关。例如,[70]利用光学流将单帧标签传播到相邻的视频帧。 [47]和[35]在几个时间步聚的密集点云聚合上训练一个教师模型。

相比之下,作者通过在事件流中运行检测器以获取整个事件流的时间范围。 [76]还采用跟踪后处理来删除不匹配的框。作者还进行双向跟踪,作为前后一致性检查,从而更好地利用事件数据的时间信息。为了处理噪声伪标签,[69]提出使用教师模型的检测分数来权重大小。相反,作者设计了一个Soft Anchor分配策略,通过忽略不确信的框的相关损失。

3 Method

在这个部分,作者首先提出了基于事件的标签高效的目标检测任务(第3.1节)。然后,作者介绍了作者方法的总体自训练管道(第3.2节)。最后,作者解释了如何获得高质量的伪标签并避免噪声框以实现最先进的结果(第3.3节)。

Problem Formulation

事件数据。与传统的捕获每个像素绝对强度的相机相比,事件相机记录光强度变化,并输出一个事件序列。每个事件由其像素坐标,触发时间戳和极性参数化。现代事件相机以微秒运行,每秒可以产生数百万个事件。

基于事件的目标检测。由于事件数据的巨大数量,在每秒钟产生的事件数量大于物体运动速度时,基于事件的目标检测只能在一个固定的时间间隔[8, 45]内应用和评估。更具体地说,给定一个捕捉一组对象的的事件流,作者可以检测其中具有语义标签的2D边界框。每个边界框由其左上角坐标,宽度和高度,类别标签,其中是类别数量,和时间戳特征化。它衡量了对象在时刻的位置。

基于事件的目标检测器。作者以RVT为例,作为作者的基础模型。RVT是一个同步检测器,将每个时间窗口中的事件转换为网格状表示。在本文的其余部分,作者称为_帧_,将每个称为_时间步_。RVT将Vision TransformerBackbone和YOLOX检测头结合在一起。为了提取时间特征,RVT在Backbone中引入了LSTM单元,以融合多个时间步的信息。这对于检测具有少数事件的缓慢移动对象(如在交通灯前停下的车辆)很有用。

在RVT中的YOLOX检测头是无Anchor的,即对于特征图上的每个位置(Anchor),它预测一个对象性分数,每个类别的IoU值,以及边界框参数的偏移量表示是否存在对象,而是类别概率和框IoU的组合,它被训练以输出预测框和该类别匹配的GT框之间的IoU值。为了获得最终结果,非极大值抑制(NMS)被应用于删除低置信度的重叠边界框。

在训练期间,每个真实边界框都被匹配到多个Anchor进行损失计算。在本节中,作者将Anchor简称为_Anchor_。与真实边界框匹配的Anchor是前景,其中所有预测值都受到监督。对于剩下的背景Anchor,只训练使其为0。

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

图2显示了作者的检测设置,其中使用了有限的标签。

弱监督目标检测(WSOD)。 在WSOD设置中,所有事件流都是稀疏标记的。由于事件的时序分辨率高,在每帧标记每个时间步是不切实际的。此外,相邻帧的标签提供的训练信号比跨帧的标签少得多。因此,合理的方法是对长事件序列均匀而稀疏地标记。

半监督目标检测(SSOD)。 在SSOD设置中,一些事件序列被密集标记,而其他事件序列则完全未标记。这也是当人们继续将数据收集到已经注释的数据集时实际可行的。由于捕捉事件序列比标记它们更容易,一个可以始终使用原始事件提高模型性能的算法是非常有用的。

为了评估标签高效的视觉学习性能,作者使用现有的基于事件的目标检测数据集,从中选择一小部分帧(WSOD)或序列(SSOD)作为标记数据。其余的训练数据作为未标记的集合,遵循以前的工作。作者也有一种完全标记的设置,其中所有标签都可用。由于原始事件流在的时间间隔上进行了注释,作者可以在未标记的时间步上创建伪标签以提高性能。有关两种设置的更多信息,请参见附录D。

LEOD: A Self-Training Framework

如图3所示,LEOD的总体管道遵循一个教师-学生伪标签范式,适用于WSOD和SSOD设置。首先,作者在标记数据上预训练检测器,使用常规检测损失直到收敛。然后,作者将它用于注释未标记的帧。为了利用离线预测的优势,作者应用时间反转,在两个方向上得到事件流,并将它们上的检测结果聚合。由于教师模型在有限数据上训练,它对于难以识别的例子将不确定。

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

因此,作者使用一个较小的阈值来保留更多的检测对象。为了消除假阳性,作者基于对象的时序持久性先验应用跟踪后处理。然而,由于作者使用的低置信阈值,可能仍然存在不准确的标签。受到噪声鲁棒学习先验工作的启发,作者设计了一个Soft Anchor分配策略,选择性地用伪标签监督模型。最后,作者可以使用重新训练的检测器作为教师模型来初始化下一轮的自我训练。描述的过程可以重复多次,以进一步提高模型性能。

与在线伪标签的比较。 在之前的基于事件的目标检测的标签高效的视觉学习工作中,教师模型和学生模型是联合训练的。在每次训练步骤中,教师模型在批量未标记数据上预测边界框,以进行学生模型的训练。这种在线范式也适用于作者的设置。

然而,教师模型只能看到一个批次的短事件流。例如,在Gen1上,作者的训练序列长度为1秒,而实际交通中的车辆可以停顿超过10秒,因此不会触发事件。在短事件流上的伪标签将不可避免地错过这些对象。因此,作者采用作者的一阶段离线标签生成范式,以保留全部时间信息。

Towards High-Quality Pseudo Labeling

在这个部分,作者介绍了LEOD框架中的每个关键组件,以实现高质量的伪标签。

测试时增强(TTA)。 在实际部署中,基于事件的目标检测器预计在实时运行,即它们只接受在之前触发的事件来检测在时刻的物体。然而,在作者的离线标签生成过程中,作者可以使用未来信息来优化当前时间步的预测。如图4所示,作者在原始事件流和反向事件流上运行检测器,使作者能够检测具有不同运动的对象。作者还应用水平翻转TTA来进一步提高检测。

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

过滤和跟踪。 TTA帮助作者检测更多的对象(更高的召回率),但它也导致了假阳性(更低的准确率)。以前的工作只是使用一个阈值来过滤具有低置信度的框。然而,如图5(a)和(b)所示,精度和召回率之间存在权衡,使找到最优阈值变得困难。

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

作者选择先用一个较低的阈值过滤以避免遗漏对象,然后使用基于跟踪的后处理来删除时间不一致的框。作者遵循基于检测的跟踪范式来在帧间链接检测框。每个框都与一个跟踪,其中是在线性运动假设下的估计速度,是ID,是到目前为止的长度,是当前分数。在第一帧中,作者初始化每个框作为跟踪。

对于每一帧的到来,作者首先预测现有跟踪的位置,并通过pairwise IoU的贪心匹配将它们与该帧中的框关联。然后,作者衰减未匹配跟踪的分数q并初始化未匹配的框为新的跟踪。最后,具有低分数的跟踪将被删除。有关实现的详细信息,请参见附录A.1。

类似于TTA,作者在正向和反向顺序上应用跟踪,只有在两个方向上关联跟踪的长度都短于时才删除一个框。然而,对于难以预测的例子,预测也可能不一致,因为预训练模型具有有限的容量。相反,作者将在损失计算中忽略被删除的框,如后文所述。此外,对于长跟踪,作者在未匹配的时间步使用线性运动修复框,并忽略它们中的训练损失。

Soft Anchor分配和再训练。 作者现在可以在GT标签和伪标签上重新训练检测器,使用原始检测损失。然而,如图5(c)和(d)所示,在后处理后仍然存在低质量的框。为了处理噪声标签,作者使用Soft Anchor分配策略选择性地监督模型训练。作者首先确定一组可疑标签,包括短跟踪的框、从长跟踪修复的框和检测分数低于阈值的框。

然后,在每次训练步骤中,作者忽略与这些不确定框相关的Anchor的损失,即作者不监督这些Anchor并允许它们发现新的实例。这种设计受到基于Anchor的检测器中Anchor分配的启发,其中使用两个阈值来确定前景或背景Anchor框,中间的Anchor在损失计算中被忽略。如作者将将在消融研究中展示,Soft Anchor分配使作者的方法对超参数更不敏感。

尽管在噪声标签上进行训练,但模型学会了优化标签并检测新对象。因此,作者进行另一轮自我训练以进一步提高结果。

4 Experiments

作者在基于事件的标签高效的目标检测任务上评估作者的方法。在第4.2节中,作者显示LEOD在低标签设置上明显优于Baseline。当所有标签都可用时,作者的方法进一步提高了性能,并在第4.3节中击败了先前的最先进水平。在第4.4节中,作者研究了作者的管道中的每个组件。

Experimental Setup

作者采用Gen1和1Mpx数据集,它们都包括各种驾驶场景,如高速公路和城市场景。Gen1包含39小时的记录,分辨率为304240的事件相机。它提供了汽车和行人的边界框注释,频率为1,2或4 Hz。1Mpx使用更高分辨率为7201080的事件相机记录,包含大约15小时的数据,这些数据是在几个月的白天和夜晚收集的,提供了汽车,行人和两轮车的标签,频率为30或60 Hz。遵循先前的研究工作,作者在评估这两个数据集时删除了过于小的真实框,并将事件分辨率减半到1Mpx的360640。作者采用平均平均精确度(mAP)作为主要指标。

作者选择1%,2%,5%和10%作为标签比例,参考了先前的研究工作。在弱监督目标检测(WSOD)设置中,所有事件流的标签都是均匀子采样。在半监督目标检测(SSOD)设置中,作者保持少量事件流不变,而将其他事件序列设置为完全未标记。对于相同的标签比例,WSOD和SSOD中可用的标签数量大致相同。最后,在完全标记设置中,所有标签都可用。

检测器训练细节。 作者采用最先进的事件基础检测器RVT作为作者的基础模型。由于计算资源有限,作者主要实验于RVT-S,而作者在第4.4节中展示了LEOD也可以扩展到RVT-B的最大的变体。大多数配置与作者在其开源代码库上构建的方法相同。在这里,作者只突出作者进行的修改。为了应用时间反转TTA,作者使用附加的时间反转数据增强进行训练。在重新训练伪标签时,作者从头开始初始化RVT,并使用Adam优化器(峰值学习率为)进行150k迭代训练。请参阅附录A.2以获取更多信息。

伪标签细节。 受到先前的研究工作[54, 63]的启发,作者对每个类别设置不同的阈值。为了简化超参数调优,作者遵循两个规则:

  1. 行人和两轮车共享相同的值,这些值是汽车值的一半;
  2. 对于汽车,Soft阈值等于硬阈值,而对于行人和两轮车,作者使用

在两种设置和两个数据集中,作者选择相同的超参数集:(对于汽车)和(对于行人和两轮车)。只有在1Mpx WSOD中,作者将设置为0.5(对于行人和两轮车),以处理过多的假阳性。最小跟踪长度在所有实验中都被设置为6。

Baseline。 作者与只使用可用标签的监督Baseline进行比较。由于作者是这个任务的第一项工作,作者设计了两个其他Baseline:_Vanilla Self-Training_ 它只训练伪标签,而不使用TTA,跟踪和Soft Anchor分配;_Soft Teacher_ 它采用来自一个代表性的2D SSOD方法的在线学生-教师范式。作者在_Soft Teacher_ 中启用Soft Anchor分配,而TTA和跟踪不适用,因为在线事件序列长度太短。作者调整Baseline的超参数以在每个设置中达到最优。作者还尝试了一个针对Anchor-Free检测器设计的最先进的2D SSOD方法,但由于YOLOX是无Anchor的,作者没有观察到明显的改进。

Label-Efficient Results

作者首先在低标签数据集上比较作者的方法与Baseline。总体结果如图6所示。

弱监督目标检测(WSOD)。 图6(a)和(b)显示了在低标签数据集上的弱监督结果。在Gen1上,LEOD在所有标记比例下,与监督Baseline的mAP都有显着提高。使用10%的标签,作者实现了45.5%的mAP,这比使用100%标签的RVT-S训练的mAP低1%。对于伪标记Baseline,Vanilla Self-Training在大多数情况下优于Soft Teacher,验证了作者对离线标签生成的选择。

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

此外,LEOD始终比它们高2%以上,表明作者伪标签的质量更高。作者在1Mpx上也观察到类似趋势,作者的方法在所有情况下获得最高的mAP。值得注意的是,两个伪标记Baseline在5%和10%的标签上的表现比预训练的RVT-S差,这证明了筛选可靠标签的重要性。最后,LEOD在10%的标签下(44.6%)优于使用所有标签的RVT-S训练(44.1%),展示了未标记数据的巨大潜力。

半监督目标检测(SSOD)。 图6(c)和(d)显示了半监督结果。使用相同数量的标签,在SSOD下训练的模型通常比WSOD更差。这表明在有限的预算下,作者应该尽可能稀疏地标记尽可能多的事件流,而不是密集地标记少数几个序列。然而,LEOD在所有标记比例下都比Baseline提高了2%以上的mAP,这表明作者伪标签的质量更高。作者的结果提供了使用完全未标记的事件数据来提高性能的 promising direction。

定性结果。 图7可视化了在Gen1 WSOD设置下,使用10%标签训练的RVT-S的检测结果。监督Baseline只能检测到由于其容量有限而触发大量事件的物体。使用纯自训练的模型检测到更多的物体,但也产生了大量的假阳性。

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

通过作者的伪标签管道,LEOD训练的模型能够处理各种困难的例子。例如,它在图7(d)中的GT注释中最初遗漏了一辆汽车。

Fully-Labeled Results

由于两个数据集上的原始标记频率都低于RVT-S的帧率(20 Hz),作者仍然可以在未标记帧上创建伪标签以提高完全监督模型性能。

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

作者在表1中与在所有标记数据上训练的州界事件基础目标检测器进行了比较。LEOD相对于RVT-S在Gen1和1Mpx上分别提高了2.2%和2.6%。在Gen1上,作者的方法在未使用预训练权重的模型中实现了新的最先进水平。这表明,即使具有100%的标签,LEOD也始终有效。在运行时间和模型大小方面,由于作者的方法没有引入新的模块到基础模型中,因此与RVT-S一样高效。

Ablation Studies

作者在更大的基于事件的目标检测器RVT-B上评估作者的标签高效的视觉学习框架。与RVT-S相比,RVT-B使用更大的ViTBackbone。

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

表2在Gen1 WSOD设置下提供了结果。由于RVT-B具有更多的参数,因此在有限标签上预训练的RVT-B已经超过了RVT-S。然而,LEOD仍然能够在所有标记比例下显著提高检测结果。在100%标签的情况下,作者的方法实现了50.2%的mAP,与使用大规模预训练Swin Transformer V2Backbone的ERGO-12具有竞争力。值得注意的是,与RVT-S相比,LEOD在RVT-B上的绝对改进更大,证明作者的框架能够稳步扩展以增强更大的和更强的检测器。

每个组件的影响。 图8显示了在Gen1和1Mpx上,不同组件对模型性能的影响。

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

TTA通过使用未来信息增加生成的伪标签的召回率,显著提高了mAP。利用对象的时序持久性,基于跟踪的后处理导致了进一步的改进。最后,通过Soft Anchor分配,只有可靠的背景和前景标签被选择,简化了模型训练。

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

作者在表3的左部分展示了多轮自训练的结果。在第一轮自训练后,检测器显著优于预训练模型,因此生成的伪标签质量更高。因此,第二轮训练导致了持续的改进。然而,由于错误累积,第三轮训练可能导致更差的模型。为了确定何时停止训练,作者 empirically 发现伪标签的准确性是一个良好的指标。在表3的右部分,作者计算了在标记帧上预测的框的精度(跳过的标签不用于防止信息泄露)。在第一轮训练后,精度始终改进,但在某些情况下,在第二轮训练后精度开始下降。实际上,在那些具有较低精度的标签上的mAP也会降低。

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

作者在表4中分析了硬阈值()和软阈值()的影响。以前的工作[63, 69]通常使用0.9的高阈值,而当时,作者观察到mAP明显降低。当较低时,作者保留了大部分检测到的对象,并使用抑制噪声标签。LEOD使用几组超参数达到类似的结果,展示了作者对它们的不变性。请参阅附录B对过滤阈值进行更多分析。

5 Conclusion

在本文中,作者提出了LEOD来解决基于事件的标签高效的目标检测任务。作者为这个任务提出了两种实际设置:弱监督检测和半监督检测。为了利用未标记的数据,作者采用自训练框架,基于教师模型生成的伪标签学习学生模型。为提高标记质量,作者引入了几个技术。在Gen1和1Mpx数据集上的广泛实验证明了作者的方法在所有设置下都优于Baseline。

如同常见的做法,作者只进行了基于同一数据收集协议的内部数据集的标签高效的视觉学习,即在标记和未标记数据上进行训练。最近的工作[3, 27, 43]表明,将大型模型训练在多个数据集的组合上可以获得卓越的性能和泛化能力。由于LEOD从未标记数据中受益,作者可以将LEOD联合训练在涉及实际多对象事件序列的数据集上,例如[4, 15, 79]。作者在附录C中讨论了作者的伪标签方法的一些失败案例。

A More Implementation Details

Tracking-based Post-Processing

给定TTA产生的检测输出,作者首先通过非极大值抑制(NMS)进行聚合。现在,对于每个事件帧在时步处,作者有一个2D边界框集合。作者遵循跟踪-检测范式[2]在帧间建立跟踪,这也是受到[76]的启发。每个跟踪维护以下属性:是像素空间的估计速度,是跟踪的唯一ID,是它的长度,是它的当前分数,该分数随时间衰减并决定是否删除跟踪。在第一帧中,作者将中的每个框初始化为一个跟踪,其中。对于每个即将到来的帧,作者需要将中的框与现有的跟踪进行链接。作者首先使用线性运动假设,根据其最后帧的坐标预测每个跟踪的新参数,同时保持其大小不变。然后,作者计算预测框与之间的配对IoU并应用贪心匹配。只有与类别相同且IoU大于的框可以匹配。对于未匹配的框,作者像第一帧一样为它们初始化跟踪。对于未匹配的跟踪,作者使它的分数,这允许在未来的帧中进行对象重识别。对于匹配的框和跟踪,作者更新

与TTA类似,作者在正向和反向事件序列中应用跟踪,只有在两个方向上都具有较短跟踪长度的框才会被删除。对于这些长跟踪,作者在未匹配的时间步使用合成框进行填充。这基于对象的持久性先验,可以进一步稳定作者的实验中的训练。总体而言,与删除和填充的检测损失将在模型训练期间被忽略。对于超参数,作者选择,这与NMS中使用的IoU阈值相同,,这是比略高的值,以及。作者并未调整这些超参数,并使用第一组有效值。

RVT Training

作者基于RVT1的开源代码库,并复制了他们的训练设置。每个50ms的时间窗口中的事件都被转换为帧状的10通道事件直方图表示。在大多数实验中,作者使用RVT-S,由于计算资源的限制,但作者在第4.4节中扩展了LEOD到RVT-B。遵循[14],作者将1Mpx的标记频率降低到10Hz。

在稀疏标签上的预训练与伪标签上的时间翻转TTA一样,使用了相同的优化器、批量大小、数据增强和数据采样方法。为了在伪标签生成中应用时间翻转TTA,作者在其中添加了时间翻转增强。作者在1%的标签上训练200k步,在2%的标签上训练300k步,在5%、10%和100%的标签上分别训练400k步。在1Mpx上,作者使用增加的序列长度进行训练,因为作者在时观察到明显更好的结果。

伪标签过滤。 作者过滤掉低置信度的边界框以获得高质量的伪标签。如第3.1节所述,RVT为每个边界框预测一个对象性分数和一个类别IoU分数。作者只保留的框,并进一步忽略的框的损失。

在伪标签上进行自训练。 作者仍然使用相同的批量大小、数据增强和数据采样方法。由于伪标签的标记频率远高于原始GT标签,在相同的事件序列长度下,有效训练批量大小更大。遵循平方根缩放定律,作者在Gen1和1Mpx上使用更高的学习率。作者在第一轮和第二轮自训练中分别训练150k和200k步。在每个训练步骤中,作者首先进行正常的Anchor分配过程以计算训练损失,然后将与不确定框(检测分数低于且被跟踪后处理忽略和填充的框)相关的Anchor的损失设置为0。

Appendix B Detailed Analysis of Pseudo Label Quality

图9显示了在不同设置和阈值下伪标签的精度和召回率。它们是通过评估伪标签与注释但跳过的真实标签进行比较计算的。如果一个预测框与一个真实框的IoU高于0.75,作者将其视为阳性检测。

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

作者观察到:

更多的预训练标签会导致更好的伪标签质量。 在所有设置中,使用更多标签预训练的模型生成的伪标签具有明显更高的精确度和召回率。

汽车比其他类别更容易检测。 与其他类别(行人和两轮车)相比,汽车在所有设置下的标签质量明显更好。这是因为汽车较大,且汽车的有框边界框注释比其他物体多。在1Mpx上,两轮车比行人稍微容易一些检测。未来的工作可以研究如何解决类别不平衡问题,并在困难示例上提高检测。

自训练可以提高伪标签质量,但可能会降低精确度。 比较图9(a)和(b)、(d)和(e),作者可以看到一轮自训练极大地提高了召回率(虚线)。然而,如果使用较小的,精确度(实线)会下降。这是因为模型在自训练后学会了发现更多的对象,但在预测中过于自信。因此,在过滤过程中没有删除更多的假阳性。一种解决方案是增加超过自训练轮数,就像[65]中那样。作者在初步实验中尝试过这种方法,但没有观察到明显的改进。

弱监督学习(WSOD)比半监督学习(SSOD)产生更好的结果。 比较图9中的WSOD和SSOD结果,作者可以看到在WSOD中训练的模型生成的伪标签质量明显高于其SSOD对应物。结合第4.2节中呈现的检测mAP结果,这证明了尽可能多地标记事件流比密集地标记少数事件序列更好。

Gen1与1Mpx的比较。 比较图9(a)和(g)、(c)和(j),作者可以看出在Gen1上检测汽车比在1Mpx上的模型更好。这是因为1Mpx具有更高的分辨率和每帧汽车的数量也更大(1Mpx:3.8 vs Gen1:1.9)。有趣的是,如图9(d)和(h)所示,Gen1上的人行道的标签质量比1Mpx上的差。通过查看一些结果,作者意识到这是因为在Gen1上没有为两轮车提供注释,但是模型将其检测为大量行人,被视为假阳性。相比之下,1Mpx没有这个问题,因为两轮车也被标记了,这消除了模型学习。实际上,精确度的差距远高于召回率,因为精确度惩罚假阳性。未来的工作可以研究如何学习更具判别性的特征以分离对象类别,例如,使用以类别为中心的对比损失[35]。

Appendix C Visualization of Pseudo Labels

作者在图10中可视化了在Gen1上的一些伪标签。

基于跟踪的后处理能够消除时间不一致的框。然而,由于作者对所有跟踪使用固定的阈值,一些对象可能会被错误地删除。在图10(a)中,被紫色箭头标记的汽车是一个困难例子,因为它只触发了一些事件。模型只在一个帧中检测到了它,而在后续帧中却错过了它,导致跟踪长度过短。因此,在时的正确检测被错误地删除了。在图10(b)中,来自另一方向的汽车移动得非常快,只保持了个时间步的可视性。因此,它们也被错误地删除了。然而,由于作者在模型训练中忽略了这些框而不是像背景一样抑制它们,因此这种错误对结果的影响较小。图10(c)展示了另一个失败案例,其中两轮车被识别为行人,如附录B中所讨论的那样。

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

成功的例子。在图10(c)中,作者可视化了行人(绿色曲线)的跟踪轨迹。尽管行人被遮挡,因此在时没有被检测到,但是作者的跟踪器在时能够重新识别它,从而保持它在新伪标签中。图10(d)展示了一个例子,其中一辆车没有被标记在GT标签中。作者的模型能够发现它并纠正注释错误。

Appendix D Discussion on Experimental Setting Naming

在本文中,作者提出了标签高效的基于事件的目标检测任务中的两个设置:

  1. 弱监督目标检测(WSOD)中,所有事件序列都稀疏地注释;
  2. 半监督目标检测(SSOD)中,一些事件序列被密集地注释,而其他事件序列则完全未标记。

虽然(ii)明显属于半监督学习,但(i)可能存在争议。实际上,弱监督和半监督学习的定义在文献中通常是重叠的。例如,维基百科页面2似乎给这两个任务类似的定义:“弱监督,也称为半监督学习,是机器学习中的一种范式…” 之前的综述[62, 71]识别出半监督学习的一个关键特性:标记数据和未标记数据应(虽然来自相同的分布)相互独立。

相比之下,稀疏标记事件序列中的标记帧并非同一序列中未标记帧的独立样本。另一方面,另一篇关于弱监督学习的综述认为“仅给出标记数据集子集的完全监督”是一种类型的弱监督,这与作者的稀疏标记设置相似。这些都是作者将(i)称为弱监督学习以区分半监督学习的主要原因。

然而,作者注意到一些学习视频目标检测采用稀疏帧的稀疏标注的工作将其设置称为半监督学习。此外,如果作者使用前馈检测器,即不利用时间信息的检测器,设置(i)就更加接近半监督学习,因为标记和未标记的时间步变得不那么相关。尽管如此,作者认为基于事件的目标检测的未来趋势是使用循环检测器,因为它们可以显著提高性能。

参考

[1].LEOD: Label-Efficient Object Detection for Event Cameras.

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

扫码加入👉「集智书童」交流群

(备注:方向+学校/公司+昵称

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下

目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下目标检测 | Soft Anchor匹配与事件相机检测相互成就,无label也不在话下想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF

行业技术方案👉AI安防、AI医疗、AI自动驾驶AI模型部署落地实战👉CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入集智书童-知识星球,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。
点击下方“阅读原文”,了解更多AI学习路上的「武功秘籍」

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy