论文地址:https://arxiv.org/pdf/2304.08069.pdfhttps://arxiv.org/pdf/2304.08069.pdf
摘要:
最近,基于端到端Transformer的检测器(DETRs)已经取得了显著的性能。然而,DETRs的高计算成本问题尚未得到有效解决,限制了它们的实际应用,并阻止它们充分利用无后处理的优点,例如非最大值抑制(NMS)。本文首先分析了现代实时目标检测器中NMS对推理速度的影响,并建立了一个端到端速度基准。为避免NMS引起的推理延迟,我们提出了Real-Time DEtection TRansformer(RT-DETR),这是我们所知道的第一个实时端到端物体检测器。具体来说,我们设计了一个高效的混合编码器,通过解耦内部尺度交互和跨尺度融合来高效处理多尺度特征,并提出了IoU感知的查询选择来改善物体查询的初始化。此外,我们提出的检测器支持通过使用不同的解码器层来灵活调整推理速度,无需重新训练,这有助于实时目标检测器的实际应用。我们的RT-DETR-L在COCO val2017上达到了53.0%的AP和在T4 GPU上达到了114 FPS,RT-DETR-X达到了54.8%的AP和74 FPS,在速度和准确性方面都优于相同规模的所有YOLO检测器。此外,我们的RT-DETR-R50在准确性方面比DINO-Deformable-DETR-R50提高了2.2%的AP,在FPS方面约高出21倍。源代码和预训练模型将在PaddleDetection上提供。
1、介绍:
目标检测是一项基本的视觉任务,涉及在图像中识别和定位物体。现代目标检测器有两种典型的架构:基于CNN和基于Transformer。过去几年,对基于CNN的目标检测器进行了广泛研究。这些检测器的架构从最初的两阶段[9,26,3]发展到单阶段[19,31,1,10,22,13,36,14,7,33,11],并出现了两种检测范例:基于锚点[19,22,13,10,33]和基于无锚点[31,7,36,14,11]的检测器。这些研究在检测速度和准确性方面都取得了重大进展。基于Transformer的目标检测器(DETR)[4,29,34,43,23,35,20,16,40]自提出以来,由于消除了各种手工制作的组件,如非最大值抑制(NMS),受到了学术界广泛关注。这种架构极大地简化了目标检测的流程,并实现了端到端的目标检测。
实时目标检测是一个重要的研究领域,具有广泛的应用,如目标跟踪[39,42]、视频监控[24]、自动驾驶[2,38]等。现有的实时检测器通常采用基于CNN的架构,可以在检测速度和准确性之间实现合理的权衡。然而,这些实时检测器通常需要后处理的NMS,这通常很难优化并且不足够稳健,导致检测器推理速度的延迟。最近,由于研究人员在加速训练收敛和降低优化难度方面的努力,基于Transformer的检测器已经取得了显著的性能。然而,DETR的高计算成本问题尚未得到有效解决,这限制了DETR的实际应用,并导致无法充分利用其优点。这意味着虽然目标检测流程被简化了,但由于模型本身的高计算成本,实时目标检测很难实现。以上问题自然地启发我们考虑是否可以将DETR扩展到实时场景,充分利用端到端检测器来避免实时检测器上由NMS引起的延迟。
为了实现上述目标,我们重新思考了DETR并对其关键组件进行了详细的分析和实验,以减少不必要的计算冗余。具体而言,我们发现,虽然引入多尺度特征有助于加速训练收敛和提高性能[43],但它也导致输入到编码器的序列长度显著增加。因此,由于高计算成本