Bootstrap

【每日论文】YOLOv12: Attention-Centric Real-Time Object Detectors

下载PDF或阅读论文,请点击:LlamaFactory - huggingface daily paper - 每日论文解读 | LlamaFactory | LlamaFactory

摘要

增强YOLO框架的网络架构长期以来至关重要,但尽管注意力机制在建模能力上已被证明具有优越性,改进工作仍然主要集中于基于CNN的改进。这是因为基于注意力的模型无法与基于CNN的模型的速度相匹配。本文提出了一种以注意力为中心的YOLO框架,即YOLOv12,它在速度上与之前的基于CNN的模型相匹配的同时,利用了注意力机制的性能优势。YOLOv12在精度上超越了所有流行的实时目标检测器,同时保持了有竞争力的速度。例如,YOLOv12-N在T4 GPU上实现了40.6%的mAP,推理延迟为1.64毫秒,比先进的YOLOv10-N / YOLOv11-N高出2.1%/1.2%的mAP,而速度相当。这一优势也扩展到其他模型规模。YOLOv12还超越了改进了DETR的端到端实时检测器,例如RT-DETR / RT-DETRv2:YOLOv12-S在运行速度上快42%,仅使用36%的计算量和45%的参数,就击败了RT-DETR-R18 / RT-DETRv2-R18。更多比较结果见图1。

一句话总结

YOLOv12通过引入注意力机制,实现了实时目标检测的高精度和低延迟。

问题1:这篇论文想要解决什么具体问题?

  • 问题背景:实时目标检测领域,尽管YOLO系列框架在速度和精度之间取得了平衡,但基于CNN的架构限制了注意力机制的采用。

  • 现有方案不足:注意力机制的计算复杂度高,内存访问效率低,导致基于CNN的模型在速度上优于基于注意力的模型。

  • 研究目标:提出一个注意力驱动的YOLO框架,在保持速度的同时,利用注意力机制的性能优势。

问题2:论文的核心创新点是什么?

  • 技术创新:提出了一种简单高效的区域注意力模块(A2)和残差高效层聚合网络(R-ELAN)。

  • 方法改进:通过改进注意力机制和架构设计,提高了模型的效率和性能。

  • 优势:与现有方法相比,YOLOv12在速度和精度上都有显著提升。

问题3:实验结果如何验证了方法的有效性?

  • 关键实验:在COCO数据集上进行了一系列实验,比较了YOLOv12与其他实时目标检测器。

  • 性能提升:YOLOv12在保持较低延迟的同时,实现了更高的mAP值。

  • 对比结果:YOLOv12在多个模型规模上均优于YOLOv10、YOLOv11以及RT-DETR等基线方法。

问题4:这个研究的实际应用价值是什么?

  • 应用场景:适用于需要实时目标检测的场景,如自动驾驶、视频监控等。

  • 实施建议:建议在具有高性能GPU的设备上部署YOLOv12。

  • 局限与展望:YOLOv12需要使用FlashAttention,且依赖于特定的GPU架构。未来研究可以探索更通用的注意力机制和更高效的计算方法。

;