A Strong and Reproducible Object Detector with Only Public Datasets
解决问题:
本篇论文旨在解决目标检测中面临的问题,即如何在仅使用公共数据集的情况下构建强大和可重复的目标检测模型。相比其他最先进的模型,该模型仅使用700M参数,没有测试时间增强,并在COCO val2017和COCO test-dev数据集上实现了64.6 AP和64.8 AP的性能。
关键思路:
本篇论文的关键思路是将强大的FocalNet-Huge骨干网络与有效的Stable-DINO检测器相结合。与现有的最先进模型不同,该模型仅使用公开可用的数据集Objects365进行训练,从而确保了方法的可重复性。相比其他模型,该模型的参数数量更少,训练技术更简单,但性能依然很强。
其他亮点:
本篇论文使用了公共数据集Objects365进行训练,这使得该方法具有更强的可重复性。该论文还提出了一种新的目标检测模型,该模型的性能强于其他最先进的模型。论文中的实验设计合理,使用了COCO val2017和COCO test-dev数据集进行评估。目前还没有开源代码,但是该工作值得进一步研究。
关于作者:
本篇论文的主要作者是Tianhe Ren、Jianwei Yang等人。他们来自中国科学院自动化研究所、中山大学等机构。之前,Tianhe Ren曾发表过“Single-Stage Object Detection with Enriched Semantics”等论文,Jianwei Yang曾发表过“Learning Feature Pyramids for Human Pose Estimation”等论文。
相关研究:
最近的相关研究还包括:
- “YOLOv4: Optimal Speed and Accuracy of Object Detection”,作者为Alexey Bochkovskiy、Chien-Yao Wang等,来自University of Washington等机构。
- “EfficientDet: Scalable and Efficient Object Detection”,作者为Mingxing Tan、Ruoming Pang等,来自Google Brain等机构。
- “Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection”,作者为Xinlong Wang、Wenhai Liu等,来自华中科技大学等机构。
论文摘要:这项工作提出了Focal-Stable-DINO,一种强大且可复现的目标检测模型,仅使用700M参数,在没有任何测试时间增强的情况下,在COCO val2017上达到64.6 AP,在COCO test-dev上达到64.8 AP。它探索了将强大的FocalNet-Huge主干与有效的Stable-DINO检测器相结合。与现有的SOTA模型不同,这些模型利用了大量参数和复杂的训练技巧来处理大规模私有数据或合并数据,我们的模型仅在公开可用的Objects365数据集上进行训练,从而确保了我们方法的可复现性。