YOLOv10目标检测创新改进与实战案例专栏
改进目录: YOLOv10有效改进系列及项目实战目录:卷积,主干 注意力,检测头等创新机制
专栏链接: YOLOv10 创新改进有效涨点
介绍
摘要
在现代卷积神经网络(CNN)中,每个卷积层中学习单个静态卷积核是常见的训练范式。然而,最近在动态卷积的研究中表明,通过学习 n 个卷积核的线性组合,并且这些卷积核的权重取决于它们的输入相关注意力,可以显著提高轻量级 CNN 的准确性,同时保持高效的推理。但是,我们观察到,现有的工作通过一个维度(关于卷积核数量)赋予卷积核动态属性,但另外三个维度(关于每个卷积核的空间大小、输入通道数和输出通道数)被忽略了。受此启发,我们提出了全方位动态卷积(ODConv),这是一种更通用且优雅的动态卷积设计,以推进这一研究方向。ODConv 利用一种新颖的多维注意力机制和并行策略,在任何卷积层的卷积核空间的所有四个维度上学习卷积核的互补注意力。作为常规卷积的替代品,ODConv 可以插入许多 CNN 架构中。在 ImageNet 和 MS-COCO 数据集上的广泛实验表明,ODConv 为各种主流的 CNN 骨干网络带来了稳固的准确性提升,包括轻量级和大型网络,例如,在 ImageNet 数据集上为 MobileNetV2|ResNet 系列带来了 3.77%∼5.71%|1.86%∼3.72% 的绝对 top-1 改进。有趣的是,由于其改进的特征学习能力,即使只有一个卷积核的 ODConv 也可以与现有的多核动态卷积对应物相竞争或胜过它们,大大减少了额外的参数。此外,ODConv 也优于其他注意力模块,用于调节输出特征或卷积权重。
创新点
ODConv是一种更通用但更优雅的动态卷积设计,它利用一种新颖的多维注意力机制和并行策略来学习卷积核的补充注意力,这些注意力涉及卷积核空间在任何卷积层的所有四个维度(即每个卷积核的空间大小、输入通道数、输出通道数和卷积核数量)。作为常规卷积的直接替代品,ODConv可以嵌入到多种CNN架构中。在ImageNet基准上进行了基础实验,在MS-COCO基准上进行了下游实验。
(a) DyConv(CondConv使用GAP+FC+Sigmoid)与(b) ODConv的示意性比较。与CondConv和DyConv不同,后者为卷积核