PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

点击下方卡片，关注「AI视界引擎」公众号

微细目标检测（Fine-grained Object Detection，简称FGOD）扩展了目标检测的能力，使其具备了微细识别的能力。在最近的两阶段FGOD方法中，区域 Proposal 充当了检测和微细识别之间的关键纽带。然而，当前的方法忽视了一些从通用检测继承的与 Proposal 相关的程序，在FGOD任务中并不完全适用，限制了从生成、表示到利用的多任务学习。

在本文中，作者提出了一种名为PETDet（Proposal Enhancement for Two-stage fine-grained object detection）的方法，以更好地处理两阶段FGOD方法中的子任务。首先，提出了一种 Anchor-Free 的质量导向 Proposal 网络（QOPN），它具有动态标签分配和基于注意力分解生成高质量定向 Proposal 。此外，还提出了一种双线性通道融合网络（BCFN），用于提取 Proposal 的独立和判别特征。此外，还设计了一种新颖的适应性识别损失（ARL），为R-CNN Head 提供指导，使其关注高质量 Proposal 。

大量实验验证了PETDet的有效性。定量分析表明，使用ResNet50的PETDet在各种FGOD数据集上达到了最先进性能，包括FAIR1M-v1.0（42.96 AP）、FAIR1M-v2.0（48.81 AP）、MAR20（85.91 AP）和ShipRSImagNet（74.90 AP）。所提出的方法在准确性和推理速度之间实现了优越的兼容性。

代码和模型: https://github.com/canoe-Z/PETDet

I Introduction

微细目标检测（Fine-grained Object Detection，简称FGOD）旨在同时准确识别细粒度子类别并定位它们。例如，一个有效的细粒度检测器不仅应正确检测粗粒度类别中的物体，而且还应识别细粒度子类别，如_Airbus 350_或_Boeing 747_。在航空图像中的FGOD具有广泛的应用前景，例如地球观测、城市监测和灾害控制。然而，与通用目标检测相比，由于由于类之间的语义混淆，FGOD面临着更大的挑战，这是因为由于类之间的差异和类内变异性导致的语义混淆。

随着高分辨率遥感技术的快速发展，尽管目标检测在遥感领域具有广泛的成功应用，但已不再满足新的细粒度识别需求。近年来，航空图像中的FGOD引起了研究界的广泛关注。FGOD是一个包含前景和背景（FG/BG）分类、框回归和细粒度识别的多任务学习问题。最近的方法通常采用两阶段流水线以更好地通过稀疏区域 Proposal 进行任务分解。

此外，航空图像中的物体通常具有不同的方向和宽高比，在水平方案下无法充分表示。当前的FGOD方法通常执行定向检测，因为定向框可以帮助在冗余背景区域较少的条件下进行精确的细粒度识别。基于两阶段流水线和定向方案，许多工作专注于通过各种注意力机制或度量学习方法改进细粒度识别性能。例如，周等人[7]引入了基于注意力的群特征增强和子显著特征学习。程等人[9]提出了一种空间和通道 Transformer 来捕捉判别特征，并采用深度度量学习来增强细粒度类的可分性。

尽管已经取得了显著的进展，但仍然存在一些需要解决的重大局限性。从多任务学习的角度来看，正确处理子任务之间的关系在FGOD中至关重要。对于两阶段方法，区域 Proposal 是连接检测和识别子任务之间的桥梁。然而，在以前的工作中， Proposal 的重要性被忽视了。在作者的研究中，作者并不打算开发新的组件来直接增强细粒度识别。相反，作者试图通过增强区域 Proposal 来提高两阶段FGOD检测器的协作优化。作者认为，与通用目标检测相关的区域 Proposal 的一些程序可能并不适用于FGOD，这导致了性能限制。具体来说，以下三个主要问题阻碍了两阶段FGOD方法的性能：

生成：对于两阶段FGOD方法，生成高质量 Proposal 是最关键的任务之一。高质量分类会导致更少的假阳性 Proposal ，这使得R-CNN Head 能够更专注于识别而不是FG/BG分类。在高质量定位的情况下，RoI特征将更好地与更少的冗余背景对齐。相比之下，一个不准确的回归 Proposal 未能完全包含目标，会导致关键的判别特征的缺失。
表示：在两阶段FGOD检测器中，第一阶段负责FG/BG分类和 Proposal 定位，而第二阶段处理细粒度识别和边界框校正。然而，这两个阶段从特征金字塔网络（FPN）中提取的特征没有解耦，导致任务之间的混淆。此外，基于单层特征的 Proposal 表示不足以支持第二阶段的准确细粒度识别[11,12]。
利用：在以前的两阶段方法中，R-CNN Head 使用常规RPN生成的 Proposal 作为输入，这些 Proposal 包含许多假阳性。因此，RoIs需要通过一个手工制作的正负比例进行采样以减少不平衡。继承了这个过程，当前两阶段FGOD方法的第二阶段仍然非常关注FG/BG分类任务。尽管 Proposal 质量已经提高，但高质量的正样本并没有得到充分利用，这极大地影响了细粒度识别的学习。

在本文中，作者专注于 Proposal 增强，并提出了一种新颖的两阶段FGOD方法，名为PETDet（Proposal Enhancement for Two-stage fine-grained object detection）。

PETDet包括三个主要组件，每个组件解决了一个与区域 Proposal 相关的上述问题。为了提高 Proposal 质量，引入了一种 Anchor-Free 的定向 Proposal 网络QOPN，具有动态标签分配和基于注意力的分解。QOPN生成高质量 Proposal ，以通过稍微增加计算成本来促进后续优化。此外，受到低秩双线性池化的启发，提出了一种Bilinear Channel Fusion Network（BCFN），通过跨 Level 融合产生独立和判别特征。为了进一步提高 Proposal 利用率，为R-CNN Head 设计了一种Adaptive Recognition Loss（ARL）。ARL根据分类得分和精炼IoU共同评估每个 Proposal 的质量，并加重高质量样本的损失。由于ARL可以指导R-CNN Head 关注某些样本，因此可以舍弃一些不适当的程序，如随机采样和非最大抑制 Proposal ，以最大限度地提高样本利用率。

大量的实验结果证明了所提出方法的有效性。具体而言，使用ResNet-50-FPN的PETDet在FAIR1M-v2.0上实现了48.81 AP，与强大的 Baseline Oriented R-CNN相比，提高了4.91%，同时推理时间几乎无增加。作者的方法还可以在包括MAR20和ShipRSImageNet的单类FGOD数据集上达到最先进性能。

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

如图1所示，与 Baseline 相比，PETDet对推理速度的影响可以忽略不计。可以得出结论，作者的PETDet在准确性和效率方面表现良好。

本工作的主要贡献可以总结如下：

从全新的视角探索了两阶段FGOD方法。通过探索三个通用的与区域 Proposal 相关的瓶颈，限制了FGOD的多任务学习，作者提出了一种新颖的FGOD框架，并提出了 Proposal 增强策略，以指导改进现有两阶段方法。
提出了一种端到端的FGOD方法PETDet，其中设计了三个新颖的协同模块，以解决FGOD中目标检测和细粒度识别子任务之间的固有矛盾。
所提出的PETDet在多个FGOD数据集上创造了新的记录，包括FAIR1M-V1.0、FAIR1M-V2.0、MAR20和ShipRSImageNet。

II Related Works

在这个部分，首先回顾了关于两阶段和一阶段方法的一般目标检测的研究，以明确与RPN和一阶段检测器的关系。然后，由于航空图像中的FGOD通常采用定向边界框，作者回顾了关于定向目标检测的相关工作。最后，讨论了FGOD领域的最新发展。

General Object Detection

随着深度学习的进步，目标检测取得了显著的进展。基于卷积的目标检测可以分为两阶段或一阶段方法。两阶段方法采用区域 Proposal 网络（RPN）生成潜在 Proposal ，然后在第二阶段进行RoI相关的边界框回归和分类。由于复杂的流水线和许多手工设计的组件，两阶段方法在一般目标检测领域最近已不再是社区的关注焦点。然而，对于FGOD任务，两阶段流水线在任务分解上具有独特的优势。

相比之下，一阶段检测器直接检测物体，无需 Proposal 。为解决前景-背景类不平衡问题，引入了Focal Loss以降低分类正确的样本的权重。为了进一步简化流水线， Anchor-Free 的一阶段检测器使用 Anchor 点或关键点代替手工制作的 Anchor 点。同时，许多先进的标签分配策略被提出，可以动态选择正负样本。此外，提出了各种软标签分配方法，以缓解分类和定位的不一致性。

对于两阶段FGOD方法，作者认为 Proposal 的质量至关重要。RPN像一阶段检测器一样进行密集预测，但相对简单的架构导致低质量预测。将对比学习应用于 Proposal 是一种提高真正阳性率的潜在方法。然而，它不能同时提高定位质量。在作者的研究中，受到两阶段检测概率解释的启发，作者从现代一阶段检测器的先进设计中生成高质量 Proposal 。

Oriented Object Detection

与一般目标检测相比，定向目标检测扩展了检测器，并具有额外的角度预测能力。航空图像是最受欢迎的定向检测应用场景，其中物体通常任意定向。基于卷积的定向检测器也可以分为两阶段或一阶段。两阶段方法根据区域 Proposal 进行定向检测。RRPN设置旋转 Anchor 点来生成定向 Proposal 。Gliding Vertex平移水平边界框的顶点以准确描述定向物体。定向R-CNN直接从水平 Anchor 点中学习定向 Proposal ，具有六个参数表示。

近年来，一阶段定向检测器也取得了令人瞩目的进展。一些工作关注于特征对齐问题。S2ANet应用 Anchor 点细化网络来生成定向 Anchor 点。R3Det通过学习对齐特征图来细化定向边界框。一些工作专注于定向边界框的表示，以解决边界问题。GWD和KLD分别采用高斯Wallenstein距离和Kullback-Leibler距离来测量Box子之间的距离。PSC通过将不同周期中的旋转周期性映射到不同频率的相位来预测定向。除了两阶段或一阶段的卷积基定向检测方法外，最近一些端到端基于Transformer的定向检测器也被提出，以实现端到端检测。

定向边界框在表示任意定向物体时包含更少的冗余区域，这为航空图像中的FGOD任务带来了很大的好处，最小化背景冗余可以增强识别任务。因此，定向预测已成为FGOD方法中的流行选择。在作者的研究中，作者采用强大的两阶段定向检测器定向R-CNN作为作者的 Baseline 方法。

Fine-grained Object Detection

基于一般目标检测和定向目标检测的发展，遥感中的FGOD越来越受到关注。与基于分类任务的以前细粒度识别工作相比，FGOD需要同时进行定位和细粒度识别。当前的FGOD方法主要致力于减轻细粒度类之间的语义混淆。周等人[7]提出了基于注意力的群特征增强和子显著特征学习。王等人[8]引入了一个额外的 Backbone 来学习细粒度分类，并采用知识蒸馏来保持其轻量。欧阳等人[65]提出了PCLDet，通过原型对比学习最大化类间距离并最小化类内距离。程等人[9]提出了SFRNet，通过空间和通道 Transformer 来捕捉判别特征，并采用度量学习来增强细粒度类的可分性。此外，还设计了几种方法来在特定细粒度类上进行FGOD。对于细粒度船检测，欧阳等人[10]构建了MGANet，利用自注意力网络来挖掘全局和局部特征。对于细粒度飞机检测，曾等人[14]提出了ISCL，通过实例切换对比学习来提取各种判别特征。

大多数最新方法都遵循两阶段范式来更好地分解FGOD的子任务。然而，它们的性能可能仍受到区域 Proposal 的一些不适当设计的负面影响，包括 Proposal 生成、表示和利用，这些在以前的研究中都被忽视了。在作者的研究中，作者并没有直接增强细粒度识别，而是专注于 Proposal 增强以克服由区域 Proposal 引起这些障碍。

III Method

在这个部分，作者提出了一种两阶段的FGOD方法，名为PETDet。图2描绘了所提出方法的总体框架。如图所示，PETDet由三个 Proposal 增强组件组成。在第III-A部分，作者将详细介绍质量导向 Proposal 网络。第III-B部分将介绍双线性通道融合网络，第III-C部分将介绍自适应识别损失。

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

Quality Oriented Proposal Network

作者提出了一种名为QOPN的 Proposal 增强网络，以生成具有较少假阳性定位的优质 Proposal 。该想法灵感来源于CenterNet2[36]，其中单阶段目标检测器替换了常规RPN以生成高质量 Proposal 。然而，在第一阶段设置更多参数会导致阶段之间的不平衡，并对FGOD任务中的协作优化造成危害。相反，QOPN采用了单阶段检测器的高级训练策略，而不是直接替换。

具体而言，QOPN采用 Anchor-Free 的范式，学习基于先验点（如FCOS）的偏移和角度，而不是设置水平 Anchor 点来避免水平 Anchor 点难以与定向 GT 值配对的问题。然后，QOPN应用自适应训练样本选择（ATSS，而不是设置固定阈值，以实现自适应样本选择，并减少超参数的数量。通过这些改进，QOPN可以生成具有较少背景冗余的优质定向 Proposal ，以便在没有额外可训练参数的情况下促进细粒度识别。

为了进一步提高 Proposal 的质量，作者还增强了QOPN的网络结构。与一阶段检测器中广泛使用的解耦分支进行定位和分类不同，QOPN只设置了几个额外的共享卷积层来避免计算量的显著增加。令表示FPN特征，其中、和分别表示特征图的高度、宽度和通道数。

作者应用连续卷积层共享用于定位和分类，以提取多尺度特征，其中，表示卷积层的数量。在作者的实现中，是作者的默认设置，因为实验证明，两个共享卷积层（LDAM详细在以下段落中）已经足够充分。

受到TOD[33]的启发，作者提出了一种轻量级解耦注意力模块（LDAM），以分解定位和分类任务，同时只使用很少的额外参数。LDAM包括一个层注意力聚合（LAA）和一个简单的空间注意力（SSA）。

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

LDAM的说明如图3所示。在LAA中，作者首先将和拼接在一起得到，并对其进行全局平均池化。然后，应用一个卷积层来学习一个层注意力映射，这里没有使用激活函数来减少计算。另一个卷积层用于将的维度降低到，同时将层注意力映射乘上。

因此，可以得到聚合特征。然后，提出一个简单的空间注意力（SSA）来增强空间分解。注意力映射由一个卷积层在全局平均池化和全局最大池化映射上生成。使用层尺度[66]的残差路径来保持稳定性和加快收敛速度。

采用LDAM提取的解耦特征，分类分支进行类无关的前景预测，输出维度为，而回归分支预测四个偏移量和定向边界框的角度。在训练期间，为了最大限度地利用样本，QOPN丢弃随机取样，并使用Focal Loss[23]来减少已分类样本的权重。Box回归使用旋转GIoU损失，因为基于IoU的损失不仅可以减轻损失函数和评估指标的不一致问题，还可以避免由角度周期性引起的边界问题。

此外，QOPN将特征图的输入尺度限制在较低水平以降低计算成本。传统的RPN从FPN中获取输入，包括{P2,P3,P4,P5,P6}。然而，研究表明，P2消耗了大部分计算但做出了较少的贡献，而高层特征更加高效。

虽然低层特征对检测小目标可能有所帮助，但在FGOD任务中，高分辨率图像中少量微小目标的情况更为常见。在这种情况下，QOPN丢弃P2并像一阶段检测器一样在{P3,P4,P5,P6,P7}上生成 Proposal 。每个 Level 的步长分别为8,16,32,64和128。更大的步长意味着特征图上的 Anchor 点数量显著减少。这样，QOPN可以在不增加FLOPs的情况下包含更多的参数。

Bilinear Channel Fusion Network

作者提出了一种双线性通道融合网络（BCFN）来增强 Proposal 的特征表示。这个想法源于一个事实，即高层特征包含更多的语义信息，而低层特征更可能对局部纹理和模式作出反应。在两阶段的FGOD方法中，第二阶段不仅需要精确的框回归所需的语义信息，还需要高分辨率的 spatial 详细信息以进行准确的细粒度识别。尽管FPN的路径，但特征表示仍然不够丰富。

此外，从FPN中提取的阶段特征，由于子任务之间的混淆，对细粒度识别是有害的。通过跨层融合，作者的BCFN可以有效地解决上述两个问题。

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

如图4所示，作者的BCFN将两个相邻 Level 的特征图作为输入以生成增强的跨 Level 特征。在BCFN的开始阶段，作者提出了一种通道交互模块（CIM），通过通道预融合充分利用跨 Level 信息。CIM在不增加新的训练参数的情况下进行通道替换，可以表示为：

其中和分别表示低层和高层特征图。、和分别表示特征图的高度、宽度和通道数。表示通道块操作，表示通道式 ConCat 操作。表示通过最近邻插值上采样特征。

基于CIM的结果，作者执行双线性通道融合（BCF）以完成跨 Level 特征融合的实际任务。BCF受到双线性池化的启发，这是一种在细粒度图像分类任务中表现出良好性能的经典方法。然而，原始的双线性池计算二次特征的成本很高。为了解决这个问题，作者受到了Multimodal Low-rank Bilinear Attention Networks（MLB）[17]的启发，并通过对BCF进行两个线性映射和Hadamard乘法来实现双线性操作，可以表示为：

其中，和分别表示通过1 1卷积实现的通道线性映射。表示两个矩阵之间的Hadamard乘积。BCF也可以被视为Gated Linear Unit（GLU）的一个双线性变体，已在自然语言处理中证明有效。BCF与MLB/GLU之间的主要区别在于，作者的设计中的所有操作都是通道式的，因为BCFN在RoI Pooling之前应用，可以提取强大的空间特征。在这种情况下，没有必要在专注于感兴趣的区域之前提前消耗额外的计算资源进行空间操作。

考虑到在FGOD任务中，低层特征起更重要的作用，作者将原始低层特征图添加到结果中作为捷径。执行上述操作后，可以得到双线性融合特征图。具体来说，将FPN中的{P2,P3,P4,P5,P6}引入BCFN，并将{B2,B3,B4,B5,B6}，其中步长分别为{4,8,16,32,64}，用于支持具有丰富特征和解耦的第二阶段。

Adaptive Recognition Loss

为了充分利用高质量的 Proposal ，作者提出自适应识别损失（ARL）来主要解决当前两阶段FGOD方法中存在的两个问题。

首先，传统的R-CNN Head 忽略了不同 Proposal 的质量差异。作者认为，在FGOD任务中，具有更高前景概率和更精确定位的高质量 Proposal 应该优先考虑。

其次， Proposal 的非极大值抑制（NMS）对细粒度识别有负面影响。由于第一阶段分类和定位的不对齐，高得分的 Proposal 可能没有精度边界框。因此，良好的定位 Proposal 可能会被删除。

此外，旋转NMS是耗时的操作。替代的水平NMS有时会导致错误的删除，尤其是面对密集排列且具有较大宽高比的 Proposal 。

作者设计的ARL是基于Focal Loss来解决上述问题的。原始的Focal Loss可以表示为：

其中和是两个超参数。用于平衡正负样本的贡献，而用于调整关注硬例的速率。然而，Focal Loss将正负样本同等对待，而正样本对FGOD更有价值。

此外，Focal Loss通过交叉熵调节，忽略了影响细粒度识别的实际因素。在这种情况下，作者为ARL设计了一种新的加权策略。联合测量被提出来重新加权正样本，其计算方法为：

其中表示由QOPN提供的 Proposal 的分类得分。与普通RPN注重召回率不同，作者的QOPN可以生成更可靠的分数来精确衡量 Proposal 的质量，即前景概率。是在第二阶段框回归后的输出IoU，表示根据定位的质量。

总的来说，ARL能够根据第一阶段的分类和第二阶段的定位共同评估每个 Proposal 的质量。然后作者的ARL可以表示为：

其中超参数控制不同 Proposal 的方差。与Focal Loss相比，作者的ARL中移除了超参数，因为也可以用来调整正样本的整体权重。在ARL中，作者不再对 Proposal 进行NMS，而是保留噪声 Proposal 以避免高质量 Proposal 的缺失。丢弃NMS也对推理速度做出了很大贡献。

此外，由于ARL可以动态增加高质量 Proposal 的权重，作者在训练过程中不再采样 Proposal 以最大化高质量 Proposal 的使用率。

IV Experimental Results and Analysis

在本节中，作者设计了广泛的实验来评估作者的PETDet在多个FGOD数据集上的性能。作者将作者的方法与最先进的定向目标检测方法进行比较，以证明作者的优越性。此外，作者还进行了大量的实验来验证每个模块的有效性以及最优参数设置。

Datasets

为了全面评估作者的方法的效率和鲁棒性，作者采用了多个数据集，包括FAIR1M、MAR20和ShipRSImageNet等。作者主要在FAIR1M数据集上进行实验，该数据集是最大的多类FGOD数据集。MAR20数据集和ShipRSImageNet数据集是单类FGOD数据集，分别用于飞机和船舶的检测和识别。作者采用这三个数据集来全面评估作者的方法在多类和单类FGOD任务上的性能。

Iv-A1 FAIR1M Dataset

目前，FAIR1M是最大的遥感细粒度目标检测数据集。图像大小范围从1000 1000到10,000 10,000像素。该数据集中的所有物体都按照5个类别（飞机、船舶、车辆、法庭和道路）和37个子类别进行标注，具有OBB标注。

除了3个其他类别（其他飞机、其他船舶和其他车辆），FAIR1M中有34个细粒度类别，即波音737（B737）、波音777（B777）、波音747（B747）、波音787（B787）、空客A320（A320）、空客A220（A220）、空客A330（A330）、空客A350（A350）、中国商飞C919（C919）、中国商飞ARJ21（ARJ21）、客船（PS）机动船（MB）、渔船（FB）、拖船（TB）、工程船（ES）、液体货物船（LCS）、干散货船（DCS）、军舰（WS）、小汽车（SC）、公交车（BUS）、货运卡车（CT）、翻斗车（DT）、货车（VAN）、拖车（TRI）、拖拉机（TRC）、卡车拖车（TT）、挖掘机（EX）、棒球场（BF）、篮球场（BC）、足球场（FF）、网球场（TC）、环形交通（RA）、交叉口（IS）和桥梁（BR）。

FAIR1M数据集包括两个版本：FAIR1M-v1.0和FAIR1M-v2.0。v1.0版本包含16488张训练图像和8137张测试图像。与v1.0版本相比，v2.0版本引入了一个额外的验证集和一个扩大的测试集，而训练集保持一致。

Iv-A2 MAR20 Dataset

MAR20是一个用于远程感测军事飞机识别的数据集。它包括3842张图像，其中1311张用于训练，2511张用于测试。图像的大小主要是800 800像素。在MAR20中，有22341个飞机实例，包括来自美国、俄罗斯和其他国家的60个军事机场的20种不同类型的飞机。所有实例都有水平和定向边界框标注。

Iv-A3 ShipRSImageNet Dataset

ShipRSImageNet是一个大规模的细粒度船检测数据集。数据主要来源于Google Earth，并补充了HRSC2016。ShipRSImageNet的分辨率范围从0.12到6米，图像大小范围从930 930到1024 1024像素。该数据集包含3435张图像，17,573个船实例。实例使用HBB、OBB和多边形标注进行标注。在ShipRSImageNet中，船被分为四级，作者在 Level 3上评估模型，其中船目标被分为50个细粒度类别。

Implementation Details

作者通过mmrotate工具箱实现作者的PETDet和其他比较模型。所有模型都在4个NVIDIA GeForce RTX3090 GPU上进行训练，总批量大小设置为8（每个GPU训练2张图像）。作者使用SGD，使用0.9的动量和0.0001的权重衰减作为默认优化参数。所有实验中的初始学习率均为0.02。在训练期间，除了随机翻转外，没有使用数据增强。

需要注意的是，不同的数据集的实验设置有所不同。对于FAIR1M，作者使用训练集和验证集进行训练，剩下的用于测试。所有图像都被裁剪成1024 x 1024的块，重叠200。模型在12个周期内进行训练，在第8和第11个周期将学习率降低到0.1。

对于MAR20和ShipRSImageNet，作者采用了官方的训练集-测试集划分。模型在36个周期内进行训练，在第24和第33个周期将学习率降低到0.1。MAR20和ShipRSImageNet的输入图像大小分别设置为800 x 800和1024 x 1024。

Evaluation Metric

作者选择平均精度（AP）作为主要的评估指标。每个类别的AP基于精确度（P）和召回率（R）计算，计算方式如下：

其中TP、FP和FN分别表示真阳性、假阳性和假阴性。正负样本的定义取决于IoU阈值，例如，采用IoU = 0.5作为阈值。通过设置不同的置信阈值，可以得到一系列不同的P和R构成的P-R曲线。然后，通过每个类别的P-R曲线计算AP。

需要注意的是，不同数据集的AP计算细节可能不完全相同。对于FAIR1M，根据Pascal VOC 2012指标，在线评估服务器将报告只有。计算34个细粒度类别，其他3个类别（其他飞机、其他船舶和其他车辆）的准确性不包括在内。相反，对于MAR20和ShipRSImageNet，是根据Pascal VOC [75] 2007指标计算的。此外，还计算了和来分析定位的质量。除非另有说明，否则本文中的所有_AP_默认表示，而不是，以更注重细粒度识别性能。

在评估作者的QOPN的有效性时，作者使用平均召回率（AR）与不同的IoU阈值和 Proposal 数量来评估生成的 Proposal 的质量。作者还评估了作者的PETDet和其他主流定向目标检测器的速度。从单个RTX 3090 GPU的实验中得到的结果，报告了每秒帧数（FPS）。还包括后处理时间（例如，NMS）。

Comparison with State-of-the-Art Methods

在这个部分，作者将PETDet与十多个主流的旋转目标检测方法进行了比较，包括单阶段和两阶段方法。实验结果表明，作者的PETDet在多个数据集上实现了最先进的表现，并在多个数据集上优于以前的方法。

Iv-D1 Quantitative and Qualitative Result on FAIR1M

对于FAIR1M，主要的实验结果是在FAIR1M-v2.0上进行的。作者报告了包括Oriented R-CNN、ReDet等先进的两阶段方法在内的11种主流定向目标检测方法进行比较。表I显示了所有方法的定量结果，其中最佳性能以粗体突出显示。所有方法默认使用ResNet50[76]作为 Backbone 网络。

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

作者没有报告GWD和KLD的FPS，因为它们只是用RetinaNet替换回归损失。如所示，作者的PETDet在所有当前定向检测器中明显优于其他方法，达到48.81 。在相同的实验设置下，PETDet分别比 Baseline Oriented R-CNN提高了4.91 AP，比先前的最佳RoI Transformer提高了4.78 AP。

此外，PETDet也可以在默认的ResNet50上超越ReDet，而ReDet使用更重的ReResNet50进行旋转不变性。与 Baseline Oriented R-CNN相比，作者的PETDet保持了相似的推理速度。

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

此外，表II中还列出了每个特定细粒度类别的。它表明，对于一些具有挑战性的类别（如C919和卡车拖车（TT）），PETDet与其它方法相比具有显著优势。

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

图6显示了在FAIR1M-v2.0验证集上，基于 Baseline 定向R-CNN和作者的PETDet获得的检测结果的混淆矩阵。它表明，在船舶和车辆的大部分细粒度类别中，作者的PETDet优于 Baseline ，但在飞机识别方面表现似乎较差。然而，PETDet在几乎所有类别中都可以实现比定向R-CNN更高的AP。这种差异主要归因于度量计算的不同。AP是一种基于排名的度量，考虑了精确率和召回率，而混淆矩阵仅关注精确率，忽略了置信度分数。

在这种情况下，PETDet倾向于用置信度分数较低的低置信预测作出更多的假阳性预测，导致真正阳性比例降低。然而，在实际中，可以通过设置一定的阈值来删除这些低置信预测。

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

然后，作者对FAIR1M-v2.0验证集上的定性结果进行了分析。图5给出了由Oriented R-CNN和作者自己的PETDet获得的细粒度检测结果的视觉化。

可以看出，作者的 Proposal 增强策略可以减少PETDet中的假阴性，特别是对于小物体。同时，强调高质量样本也有助于细粒度识别。如果没有对比学习，作者的PETDet也可以比 Baseline Oriented R-CNN更接近地预测更接近真实值的细粒度类别。

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

表III报告了在FAIR1M-1.0上的定量结果。请注意，PCLDet报告的结果是基于0.001的得分阈值，而不是作者默认设置的0.05。因此，作者对PCLDet进行了重新实现以进行公平比较。其他结果引自[9]。尽管所有方法都使用ResNet50作为 Backbone ，但一些方法（如DAL、RIDet、CFC-Net和TIOE-Det）对数据增强或训练时间表采取了更宽松的设置。

此外，一些比较方法使用较小的批量大小，这可能对结果产生额外的改进。实验结果表明，PETDet在FAIR1M-v1.0上超越了以前的单阶段和两阶段定向目标检测器。与基于对比学习的PCLDet和SFRNet相比，作者的提出的PETDet分别比它们提高了2.71 AP和2.22 AP。在FAIR1M-v2.0和FAIR1M-v1.0上的实验结果都表明，作者的PETDet在多类FGOD任务中可以实现显著的改进。

Iv-D2 Quantitative Result on MAR20

为了进一步验证PETDet在单类FGOD任务上的有效性，作者在MAR20数据集上进行了比较实验。MAR20数据集只包含飞机目标，与FAIR1M相比，检测难度相对较低。因此，准确细粒度识别成为实现更高结果的关键。作者与七种主流定向目标检测方法进行了比较，包括单阶段和两阶段方法。

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

表IV显示了在MAR20数据集上的实验结果。可以看出，PETDet也可以在MAR20数据集上实现最先进的结果，超越Oriented R-CNN by 3.20 AP。此外，PETDet在AP75和AP50:95上的显著优于其他所有方法，表明作者的PETDet可以显著提高定位的质量。

Iv-D3 Quantitative Result on ShipRSImageNet

作者还进行了在ShipRSImageNet数据集上的实验，结果见表V。

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

作者的提出的PETDet也可以在这个数据集上运行良好。与Oriented R-CNN相比，PETDet分别引入了+3.14 和+3.79 的改进。在MAR20和ShipRSImageNet上的实验都表明，如果没有针对特定类别的设计，PETDet也可以在单类FGOD任务上实现竞争力的性能。

Ablation Study

作者进行了广泛的实验来验证作者PETDet中提出的模块的有效性。首先，作者逐步验证每个组件的有效性，即作者的QOPN、BCFN和ARL。然后，作者分别分析每个组件的特定有效性和最优参数设置。除非另有说明，否则所有消融实验都在FAIR1M-v2.0上进行，使用ResNet-50 Backbone 网络。

V-B1 Effectiveness of New Components

作者进行了组件化的消融实验，以全面分析作者的PETDet在各个FGOD数据集上的性能。如表VI所示，三个关键组件QOPN、BCFN和ARL对每个数据集的性能都有所帮助。

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

此外，还应注意，这三个组件在不同的数据集上给出了不同的AP增益。在FAIR1M-v2.0和MAR20上，ARL对改进的贡献最大（+2.42 AP和+2.79 AP），因为它专注于关注度和重要的样本。在ShipRSImageNet上，检测器将面临许多密集排列的船只，具有大的宽高比。通过 Anchor-Free 范式和更强大的架构，QOPN可以明显受益（+1.40 AP），因为它可以更好地生成 Proposal 。

V-B2 Ablation on QOPN

在QOPN中，LDAM被设计用于分解BG/FG分类和回归，包括层注意力聚合（LAA）和简单空间注意力（SSA）。为了充分调查LDAM的重要性，作者对QOPN的不同网络架构进行了研究。

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

结果如表VII所示，其中堆叠卷积表示共享分支中的卷积层数量。作者可以观察到，LAA和SSA都可以通过忽略FLOPs和模型参数的增加带来改进。得益于LDAM，具有2个堆叠卷积层的QOPN可以超过具有4个堆叠卷积层的QOPN。

为了进一步证实由QOPN生成的 Proposal 质量的改进，作者在不同的设置下评估了QOPN的召回率。具体而言，作者分别取300、500和1000个 Proposal ，在0.5、0.75和0.85 IoU阈值下计算召回率。然后，计算在0.5到0.95 IoU阈值范围内的平均召回率（AR），并使用不同数量的 Proposal 。

作者将QOPN与Oriented RPN（ORPN）进行比较，该RPN Proposal 由Oriented R-CNN提出。实验在FAIR1M-v2.0验证集上进行，结果如表VIII所示。

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

可以看出，作者的QOPN不仅可以显著提高0.5 IoU阈值下的召回率，而且在更高的IoU阈值下也有显著的改进。这表明作者的QOPN可以生成更多的良好定位的 Proposal ，这对于第二阶段的细粒度识别至关重要。

V-B3 Ablation on BCFN

如图4所示，作者在QOPN的基础上探索了BCFN的不同网络设计。在这里，_high-level_和_low-level_分别指直接使用{P3,P4,P5,P6,P7}或{P2,P3,P4,P5,P6}作为第二阶段的输入。而_FPN-style_表示与FPN类似的融合方法进行比较。具体而言，首先使用最近邻插值对高层特征图进行上采样。然后，应用1×1卷积调整通道数。接下来，对齐高层和低层特征图进行逐元素加法，然后使用3×3卷积来降低Aliasing效应。

作者得出的结果表明，单级特征对于FGOD任务是不够的。此外，对于具有更丰富局部纹理和模式的细粒度识别，低级特征更加重要。跨级融合是增强 Proposal 特征的有效方法。与FPN风格的融合相比，作者的BCFN可以在降低FLOPs和参数的同时，实现更好的跨级融合。

V-B4 Ablation on ARL

当ARL应用于R-CNN Head 时，作者弃用了对 Proposal 进行NMS。基于由QOPN提供的 Proposal ，作者首先评估了有无NMS条件下的召回率，如表X所示。

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

一方面，如果不进行NMS，R50会因匹配 Proposal 减少而降低，但随着 Proposal 数的增加，这种影响变得可以忽略。另一方面，在较高的IoU下，弃用NMS对 Proposal 进行处理可以提高召回率，正如作者讨论的那样，由于第一阶段定位和分类的不一致，高分数的 Proposal 可能无法拥有最准确的边界框。

因此，不对 Proposal 进行NMS处理可以提高较高IoU阈值下的召回率。

Table XI报告了在不同 Proposal 后处理设置下，交叉熵损失和ARL的比较。可以发现，将 Proposal 数量减少到1000时，ARL的效果更好。

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

将 Proposal 数量减少到1000时，不会显著影响性能。此外，在采用交叉熵损失时，可以分别通过移除 Proposal 进行NMS，在2000和1000个 Proposal 下实现0.31和0.67的AP提升。这些结果符合作者的预期，因为1000个 Proposal 已经足够实现高的召回率，而无需对 Proposal 进行NMS可以保留更多高质量 Proposal 。

在应用所提出的ARL后，在经过NMS处理后，1000个 Proposal 可以实现47.05 AP，超过了相同设置下的0.83 AP的交叉熵损失。此外，如果不应用NMS，可以使用ARL获得1.76 AP的额外增益。这表明ARL可以更好地利用噪声 Proposal 来促进细粒度识别学习。

作者还进行了实验来研究ARL中两个超参数和的鲁棒性。在这里，可以减少容易的负样本的权重，而用于控制不同 Proposal 质量之间相对大小的比例。作者进行网格搜索来研究超参数的影响，结果如表XII所示。

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

可以看出，当超参数和设置较小时，性能会降低。当在1.5到2.0之间变化，在1.5到3.0之间变化时，性能对这些超参数不再敏感。作者在所有其他实验中采用和作为默认值。使用这个组合，作者的PETDet可以在FAIR1M-v2.0数据集上实现48.81 AP。

请注意，在其他数据集上的默认超参数数量和选择略有不同。例如，MAR20数据集上的检测任务相对容易，可以确保召回率，因此减少第二阶段输入的 Proposal 数量，并将ARL中的设置较低，以平衡正负样本之间的权重。

V Conclusion

在本文中，作者从多任务学习的角度探讨了两阶段FGOD方法。因此，作者提出了一种改进的两阶段FGOD方法，名为PETDet，该方法通过 Proposal 增强（QOPN模块）实现。

作者的模型主要从三个方面贡献力量：

提高 Proposal 质量（QOPN模块）；
利用跨级判别特征（BCFN模块）；
重新加权 Proposal 以关注高质量样本（ARL模块）。

在四个通用数据集上的广泛实验结果以及每个模块的全方位消融研究证明了PETDet的有效性。与其他方法相比，PETDet不仅达到了最先进的表现，还实现了良好的准确性和速度权衡。尽管PETDet表现出优异的性

能，但该设计仅适用于两阶段流水线，并仅在大型数据集上进

行评估。

作者的未来工作将从两个主要方面扩展作者的模型：

包括基于Transformer的方法，使其更高效；
实现少样本FGOD适应以满足更多的实际数据稀缺应用。

作者希望作者的PETDet多任务交互探索可以为推动FGOD领域的发展做出贡献。

参考

[1]. PETDet: Proposal Enhancement for Two-Stage Fine-Grained Object Detection

扫描下方二维码添加小助手

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

点击上方卡片，关注「AI视界引擎」公众号

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

PETDet开源 | Anchor-Free 质量导向RPN+双线性通道融合，让检测走向更细微处

I Introduction

II Related Works

General Object Detection

Oriented Object Detection

Fine-grained Object Detection

III Method

Quality Oriented Proposal Network

Bilinear Channel Fusion Network

Adaptive Recognition Loss

IV Experimental Results and Analysis

Datasets

Iv-A1 FAIR1M Dataset

Iv-A2 MAR20 Dataset

Iv-A3 ShipRSImageNet Dataset

Implementation Details

Evaluation Metric

Comparison with State-of-the-Art Methods

Iv-D1 Quantitative and Qualitative Result on FAIR1M

Iv-D2 Quantitative Result on MAR20

Iv-D3 Quantitative Result on ShipRSImageNet

Ablation Study

V-B1 Effectiveness of New Components

V-B2 Ablation on QOPN

V-B3 Ablation on BCFN

V-B4 Ablation on ARL

V Conclusion

参考

n8n实战：Webhook、条件判断与API集成详解

谷歌太壕了！编程Agent大招至简：开源且免费，百万上下文、多模态、MCP全支持

老黄新鲜一刀，RTX 5050正式官宣

国产GPU历史性时刻！摩尔线程、沐曦同日获IPO受理

一张小卡片敢卖999？原来是智能体AI硬件

让AI主动干活，给你找服务，鸿蒙“6”啊

这个AI能救命！提前6个月发现胃癌病灶，突破医学影像认知，达摩院做成了

科大讯飞“AI+教育”再提速：学习机功能升级引领行业发展

7B小模型超越DeepSeek-R1：模仿人类教师，弱模型也能教出强推理LLM | Transformer作者团队

多模态AI黑马刷榜后再造神器：一个产品搞定图片视频播客生成，自带百种特效，大牛梅涛团队出品