摘要
在目标检测领域,YoloV9以其高效和准确的性能而闻名。然而,为了进一步提升其检测能力,我们引入了DeBiFormer作为YoloV9的主干网络。这个主干网络的计算量比较大,不过,上篇双级路由注意力的论文受到很大的关注,所以我也将这篇论文中的主干网络用来改进YoloV9,卡多的同学可以试试。
DeBiFormer是一种新型的视觉转换器,它结合了可变形注意力和双级路由注意力的优点。通过引入可变形双级路由注意力(DBRA)机制,DeBiFormer能够灵活且语义化地获取数据依赖的注意力模式。这种注意力中注意力的架构使得模型能够更高效地定位关键特征,从而提高检测的准确性。
将DeBiFormer应用于YoloV9的主干网络,我们实现了以下显著的改进:
- 更强的特征表示能力:DeBiFormer的DBRA机制能够捕获更多信息性特征,并将其回传给查询,从而增强了模型的特征表示能力。这使得YoloV9在检测目标时能够更准确地识别其形状、纹理等关键特征。
- 更高的检测精度:由于DeBiFormer具有更强的特征表示能力,YoloV9在检测目标时能够实现更高的精度。实验结果表明,在相同的数据集和训练策略下,改进后的YoloV9在各类目标上的检测精度均有显著提升。
- 更好的泛化