ConvNext:A ConvNet for the 2020s
ConvNext:2020 年代的卷积神经网络
论文地址: https://arxiv.org/pdf/2201.03545
自从Transformer成功应用在视觉领域并且取得显著成绩后,很多人开始抛弃卷积网络架构,转而使用Transformer。然而有的大佬不认为卷积过时了,于是有了这篇论文,本文并没有提出创新的技术,而是集百家之所长,将CV领域中的各种技巧融会贯通,使用纯卷积搭建类似于Transofmer的网络结构,以此证明了“我和你长得类似,我纯卷积效果也不输你自注意力”;最终得到了卷积神经网络的巅峰之作——ConvNext。经过个人实践后,效果确实强,的确不输SwinTransformer,也超过了绝大部分的卷积网络(我没有把所有卷积网络都对比)。
1、前言
2020年Vision Transformer横空出世,直接在计算机视觉大杀四方,传统卷积网络在计算机视觉领域的地位受到了挑战。于是作者在2020年重新探索了纯粹基于卷积的网络设计的潜力,证明了卷积神经网络还能再战!
视觉识别的“咆哮的 20 年代”始于视觉Transformer (ViT) 的引入,它迅速取代了卷积网络,成为最先进的图像分类模型。
另一方面,普通的 ViT 在应用于一般计算机视觉任务(例如对象检测和语义分割)时面临困难。Swin Transformers重新引入了几个卷积架构,使得 Transformers 成为了通用视觉主干,并在各种视觉任务上展示了卓越的性能。然而,在 Transformer 中引入卷积架构,其有效性仍然在很大程度上归功于 Transformer 的内在优越性,而不是卷积固有的归纳偏差。
在这项工作中,作者重新审视设计空间并测试纯卷积网络能实现的极限。作者对标准的ResNet架构进行了一系列的“现代化”改进,逐步将其改造为类似于 ViT 的设计,但完全基于标准的ConvNet模块,并发现了几个导致性能差异的关键组件。作者将这一探索的结果称为“基于纯卷积网络的模型”——ConvNeXt。ConvNeXts 完全由标准 ConvNet 模块构建而成,在准确性和可扩展性方面能与 Transformers 竞争,实现了 87.8% 的 ImageNet top-1 准确性,并在 COCO 检测和 ADE20K 分割方面优于 Swin Transformers,同时保持了标准 ConvNets 的简单性和效率。
1.1、ConvNets和视觉Transformer在ImageNet-1K上的分类结果
图中的每个气泡代表一个模型变体,气泡的面积与该模型变体的浮点运算次数(FLOPs)成正比。FLOPs是衡量模型在处理单个输入时所需计算量的指标,通常用来评估模型的计算复杂度。图中展示了不同尺寸的模型,包括ImageNet-1K和ImageNet-22K模型。ImageNet-1K/22K模型分别处理224x224和384x384像素的图像。ImageNet-22K是ImageNet-1K的一个扩展,包含更多的类别和图像。ResNet和ViT结果是在原始论文的基础上通过改进的训练技巧得到的。作者证明了一个标准的ConvNet模型可以达到与SwinT相同的可扩展性水平,同时在设计上要简单得多。
1.2、卷积神经网络在计算机视觉领域的统治地位并非巧合
在许多应用场景中,“滑动窗口”策略是视觉处理的内在特征,特别是在处理高分辨率图像时。卷积神经网络有几个内置的归纳偏置,使它们非常适合各种各样的计算机视觉应用。其中最重要的一个归纳偏置是平移等变性(translation equivariance),它指的是网络对于输入图像中目标位置的变化保持一定的鲁棒性。具体来说,平移等变性意味着如果输入图像发生平移(即图像中的所有内容按照某个方向移动一定的距离),卷积层输出的特征映射也会以相同的方式平移。这种特性使得卷积神经网络能够更好地检测和识别图像中的位置变化的物体。 ConvNets 在采用滑动窗口方式时,由于计算是共享的,因此具有固有的高效性。这意味着网络在处理图像的每个局部区域时,可以重复利用之前的计算结果,从而减少了总体的计算量。
1.3、Transformer的发展
大约在同一时间,自然语言处理 (NLP) 的神经网络设计走了一条截然不同的道路,Transformers 取代了循环神经网络RNN,成为占主导地位的骨干架构。 尽管语言和视觉领域之间的兴趣任务存在差异,但随着视觉Transformer(ViT)的引入彻底改变了网络架构设计的格局,这两个流在 2020 年令人惊讶地融合。除了最初的“patch”层(将图像分割成一系列补丁)外,ViT 没有引入特定于图像的归纳偏差,并对原始的 Transformer 进行了最小的更改。
ViT 的一个主要关注点是扩展行为:借助更大的模型和更大的数据集,Transformers 的性能可以显著优于标准 ResNet。ViT 在图像分类任务的结果令人鼓舞,但计算机视觉并不局限于图像分类;如果没有 ConvNet 归纳偏差,普通的 ViT 模型想要成为通用视觉主干面临许多挑战,其中最大的挑战是 ViT 在整张输入的图像上计算自注意力,其计算复杂度会随着输入图片大小呈二次方增长,这是非常庞大的计算量。这对于 ImageNet 分类来说可能是可以接受的,但对于更高分辨率的输入就会变得棘手。
层级式Transformer 采用“滑动窗口”策略(在局部窗口内计算注意力),这使得 Transformer 的行为与 ConvNet 更加相似。Swin Transformer 首次证明 Transformer 可以作为通用视觉主干,并在图像分类之外的一系列计算机视觉任务中实现了最先进的性能。SwinT 的成功揭示了一件事:卷积的本质和精髓并不是无关紧要,相反,它仍然很受欢迎,并且从未消失。
1.4、本文研究
在这项工作中,作者研究了 ConvNet 和 Transformer 之间的架构差异,并尝试在比较网络性能时找出造成两者性能差异的变量。我们的研究旨在缩小 ViT 和 ConvNet 之间的差距,并测试纯 ConvNet 所能实现的极限。从标准的ResNet(例如ResNet50)开始,逐渐将标准ResNet的架构“现代化”,使其结构逐渐接近 Swin Transformer。在研究过程中,作者提出了一个关键问题:“Transformer中的设计理念如何影响ConvNet的性能?” 这个问题引导了整个探索过程。在改进ResNet的过程中,作者发现了一些关键的组件,这些组件对于缩小ConvNet和Transformer性能差异起到了重要作用。基于这些发现,作者提出了一个新的ConvNet模型家族,称为ConvNeXt,这个家族的模型完全由标准的ConvNet模块构建。ConvNeXt在多种视觉任务上进行了评估,包括ImageNet分类、COCO上的目标检测和分割,以及ADE20K上的语义分割。令人惊讶的是,尽管ConvNeXt完全由标准的ConvNet模块构建,但它在准确性、可扩展性和鲁棒性方面与Transformer相当,甚至在一些基准测试中更优。作者还提到鼓励人们重新思考卷积在计算机视觉中的重要性。
2、Modernizing a ConvNet: a Roadmap 卷积网络的现代化路线图
在本节中,作者提供了从传统 ResNet 逐渐演变到具有Transformer特点的卷积神经网络的演变路径,仍然基于卷积神经网络架构,但它在设计上融入了一些Transformer的元素或特性,使得它在某种程度上与Transformer相似,但仍然保持了ConvNet的基本性质。作者根据 FLOP 考虑两种模型大小,一种是 ResNet-50 / Swin-Tiny,FLOP 约为 4.5×109(45亿次),另一种是 ResNet-200 / Swin-Base ,FLOP 约为 15.0 × 109(150亿次)。为了简单起见,只展示 ResNet-50 / Swin-Tiny 的对比结果,对于更复杂模型的对比结论是一致的。
起点是 ResNet-50 模型,首先使用与Vision Transformer 类似的训练技术进行训练(将图像划分成若干补丁),并获得与原始 ResNet-50 相比大大改进的结果,这将是基线。 然后研究了一系列设计决策:
1、宏观设计(Macro Design) 2、ResNeXt 3、倒置瓶颈块 4、内核大小
5、各种分层微观设计(Micro Design)
在上图中,展示了“网络现代化”每一步的过程和能够实现的结果。 由于网络复杂性与最终性能密切相关,因此在探索过程中 FLOP 得到粗略控制,尽管在中间步骤中 FLOP 可能高于或低于参考模型。 所有模型均在 ImageNet-1K 上进行训练和评估。
ResNet-50 现代化的详细结果
ResNet-200 现代化的详细结果
2.1、Training Techniques 训练技巧
除了网络架构的设计之外,训练过程也会影响最终的性能。视觉 Transformers 不仅带来了一组新的模块和架构设计决策,而且还为视觉引入了不同的训练技术(例如 AdamW 优化器)。这涉及到优化策略和相关超参数的设置。 因此,探索的第一步是使用视觉 Transformer 的训练步骤训练基线模型,在本例中为 ResNet50/200。
ResNet 的训练从原来的 90 个 epoch 扩展到 300 个 epoch。使用 AdamW 优化器 、Mixup 、Cutmix 、RandAugment 、随机擦除
(Random Erasing)等数据增强技术,以及包括随机深度(Stochastic Depth)和标签平滑(Label Smoothing)在内的正则化方案。在不改变网络结构的前提下,这种增强的训练方法将 ResNet-50 模型的性能从 76.1% 提高到 78.8%(+2.7%),这意味着传统 ConvNet 和视觉 Transformer 之间的性能差异很可能是由于训练技巧。 我们将在整个“现代化”过程中使用具有相同超参数的固定训练方案。 ResNet-50 体系中报告的每个准确率都是使用三种不同随机种子进行训练获得的平均值。
2.2、Macro Design 宏观设计
现在分析Swin Transformers的宏观网络设计。Swin Transformers 参照卷积网络结构使用多阶段设计,其中每个阶段都有不同的特征图分辨率。有两个有趣的设计考虑因素:阶段计算比率(Stage Compute Ratio)和“干细胞”结构(“stem cell”structure)。
阶段计算比例(Stage Compute Ratio):是指在网络的不同阶段分配计算资源的比例。在卷积神经网络中,通常会将网络分为多个阶段(或称为层级),每个阶段处理不同分辨率的特征图。在Swin Transformer和许多其他卷积网络中,不同阶段具有不同的特征图分辨率,意味着每个阶段可能包含不同数量的卷积层或其他类型的层。阶段计算比例决定了每个阶段在整体网络计算中所占的比重。例如,某个设计可能会在早期阶段分配较少的计算资源,而在后期阶段分配更多的资源,这通常与特征图的分辨率和特征提取的复杂度有关。
“Stem Cell”在这里是一个比喻,指的是网络输入部分的处理结构,即如何处理最初的输入图像以生成第一层特征图。在Swin Transformer中,这个结构可能包括一系列的卷积层、池化层或其他类型的层,作用是将输入图像转换成一系列初步的特征表示,这些特征随后被送入网络的后续阶段进行更深入的处理。这个结构的设计对于整个网络的性能至关重要,因为它决定了网络如何处理和理解输入数据的初步信息。
Changing stage compute ratio:Swin-Tiny 的阶段计算比例为 1:1:3:1,对于较大的 Swin Transformer,该比例为 1:1:9:1。 于是作者将每个阶段的块数从 ResNet-50 中的 (3, 4, 6, 3) 调整为 (3, 3, 9, 3),这也使得 FLOP 与 Swin-T 保持一致。 这将模型准确率从 78.8% 提高到 79.4%,后续都将使用该计算比率(3, 3, 9, 3)。
Changing stem to“Patchify”:通常,干细胞设计关注的是在网络开始时如何处理输入图像。在标准 ConvNet 和视觉 Transformers 中,常见的干细胞会将输入图像下采样到适当的特征图大小。标准 ResNet 中的干细胞包含一个步长为 2 的 7×7 卷积,然后接步长为 2 的最大池化层,这会导致输入图像 4 倍下采样。在 ViT 中,干细胞采用了更激进的“patchify”策略,通过使用大卷积核和非重叠卷积操作,直接将图像划分为固定大小的补丁,每个小块作为一个特征向量输入到后续的Transformer层。Swin Transformer 使用类似的“patchify”层,但补丁大小较小,仅仅为 4×4,以适应多阶段的架构设计。于是作者使用 kernel_size=4×4、stride= 4 的卷积层实现 patchify 层,然后替换了 ResNet 风格的干细胞。 准确率从 79.4% 变为 79.5%,这表明 ResNet 中的干细胞可以用 ViT 那样的更简单的“补丁化”层替代,这将产生类似的性能。后续都将在网络中使用“patchify Stem”(4×4非重叠卷积)。
2.3、ResNeXt-ify
在这一部分,作者尝试采用 ResNeXt 的想法,它比普通的 ResNet 具有更好的 FLOPs/准确性权衡。核心组件是分组卷积,其中卷积滤波器被分成不同的组。 从高层次来看,ResNeXt 的指导原则是“使用更多的分组,扩展宽度”。更准确地说,ResNeXt 对瓶颈块中的 3×3 卷积层采用分组卷积,每组处理一部分输入通道,从而减少计算量。 由于减少了 FLOP,因此扩展了网络宽度以补偿性能损失。
作者使用深度可分离卷积,这是分组卷积的一种特殊情况,其中分组的数量等于通道的数量。这意味着每个通道都通过自己的卷积核进行卷积操作,而不会与其他通道混合。Depthwise conv 已通过 MobileNet 和 Xception 得到普及。作者注意到,深度可分离卷积类似于自注意力中的加权和运算,它在每个通道的基础上进行操作,即仅混合空间维度上的信息。深度卷积和 1 × 1 卷积的组合导致空间分离和通道混合,这是视觉 Transformer 共享的属性,其中每个操作要么混合空间维度信息,要么混合通道维度的信息,但不能同时混合两者。深度可分离卷积的使用有效地减少了网络的flops,并提高了精度。按照 ResNeXt 中提出的策略,将网络宽度增加到与 Swin-Tiny 相同的通道数(从 64 增加到 96)。这使得网络性能从 79.5% 提高到 80.5%,同时增加了 FLOPs (5.3G)。后续都将在网络中使用 ResNeXt 的深度可分离卷积。
2.4、Inverted Bottleneck 倒置瓶颈块
每个Transformer块中的一个重要设计是创建了一个反向瓶颈,即MLP块的隐藏神经元维度比输入特征的维度宽四倍,如下图所示:
1x1, 384→96:1x1的卷积层,改变通道数,用于降维,后续再用1x1的卷积升维;
d3x3, 96→96: 3x3的深度卷积层(depthwise convolution),在每个输入通道上独立地应用3x3卷积核,输出通道数与输入通道数相同。
(a)ResNeXt块 (b)倒置的瓶颈块 (c)深度卷积层位置上调
将3x3的深度卷积层位置上调,可以更早地捕获空间信息,这与Transformer中自注意力机制的局部性特征相呼应。这使得性能略有提高,从80.5% 到 80.6%。在 ResNet-200/ Swin-B 中,从81.9% 提升到 82.6%,同时减少了 FLOP。后续的网络中都将继续使用倒置瓶颈块。
2.5、Large Kernel Sizes 更大的卷积核尺寸
在这部分中,作者重点关注大卷积核尺寸带来的影响。视觉 Transformers 最显著特点之一是非局部自注意力(non-local self-attention),这使得每一层都具有全局感受野。虽然过去卷积网络也使用过大内核,但自从 VGGNet 问世后,堆叠小内核 (3×3) 的卷积层成了黄金准则(在现代 GPU 上具有高效的硬件实现)。尽管 Swin Transformers 将局部窗口重新引入到 self-attention 块中,但窗口大小至少为 7×7,明显大于 ResNe(X)t 3×3的卷积核尺寸。于是作者重新审视了在卷积网络中使用大内核的卷积。
Moving up depthwise conv layer:向上移动深度卷积层。要探索大内核,先决条件之一是深度卷积层位置上调(上图 (b) 至 (c))。这也是 Transformers 中的一个设计决策:MSA 块放置在 MLP 层之前。由于有一个反向瓶颈块,复杂且低效的模块(MSA、大内核卷积)将具有更少的通道,而高效且密集的 1×1 卷积层将承担繁重的工作。此中间步骤将 FLOP 减少到 4.1G,导致性能暂时下降到 79.9%。
Increasing the kernel size:增加内核大小。采用更大内核的卷积将带来巨大的好处,作者尝试了多种内核大小,包括 3、5、7、9 和 11。网络的性能从 79.9% (3×3) 增加到 80.6% (7×7),而网络的 FLOP 保持大致相同。此外还观察到较大内核尺寸的好处在 7×7 处达到饱和点。当内核大小增加到超过 7×7 时,ResNet-200 机制模型不会产生进一步的增益。后续的网络中都将使用位置上调的7×7深度卷积层。
2.6、Micro Design 微观设计
在本节中,作者在微观尺度上研究了其他的架构,这里的大多数探索都是在layer层面上完成的,重点是激活函数和归一化层的特定选择。
Replacing ReLU with GELU:用 GELU 替换 ReLU。NLP 和 CV 之间的一个细节差异是使用哪种激活函数。随着时间的推移,许多激活函数被提出,但 Rectified Linear Unit(ReLU) 激活函数由于其简单性和高效性仍然在卷积网络中被广泛使用,并且也在最初的 Transformer 论文中被用作激活函数。Gaussian Error Linear Unit(GELU) 激活函数被认为是 ReLU 更平滑的变体,被用在最先进的 Transformer 中,包括 Google 的 BERT 和 OpenAI 的 GPT-2,以及最近的 ViT 系列。作者发现将卷积网络中 ReLU 替换成 GELU,准确率保持不变(80.6%)。
Fewer activation functions:更少的激活函数。Transformer 和 ResNet 模块的小区别是 Transformer 的激活函数较少;Transformer 块在 MLP 块中具有键/查询/值线性嵌入层、投影层和两个线性层,但是仅只有一个激活函数;相比卷积网络架构,在每个卷积层(包括 1×1 卷积)后面添加激活函数是很常见的事。如下图所示,从残差块中消除了所有 GELU 层(两个 1 × 1 层之间的一层除外),复制了 Transformer 块的风格。 该过程将结果提高至 81.3%,几乎与 Swin-T 的性能相当。后续的网络中都将在每个块中使用单个 GELU 激活函数。
Fewer normalization layers:更少的归一化层。Transformer 块通常也具有较少的归一化层。于是作者删除了两个 BatchNorm (BN) 层,只在 1×1 卷积层之前留下一个 BN 层。这进一步将性能提升至 81.4%,已经超过了 Swin-T 的结果。
Substituting BN with LN:用LN代替BN。BatchNorm 是卷积网络的重要组成部分,它可以加快收敛并减少过拟合;然而 BN 也有许多复杂的问题,可能会对模型的性能产生不利影响。另一方面,Transformers 中使用了更简单的 Layer Normalization(LN),并在不同的应用场景中都获得了良好的性能。在原始 ResNet 中直接用 LN 替换 BN 将导致性能欠佳。通过对网络架构和训练技巧的修改,作者重新审视使用 LN 代替 BN 的影响;最后观察到 ConvNet 模型在使用 LN 进行训练时没有任何困难;性能还变得更好一些,准确率达到 81.5%。在后续的网络中,每个残差块只使用一个 LayerNorm 作为归一化层。
Separate downsampling layers:单独的下采样层。在原始 ResNet 中,空间下采样是在每个阶段(stage)开始时,使用步长为 2 的 3×3 卷积(在快捷连接处使用步长为 2 的 1×1 卷积)来实现。在 Swin Transformer 中,在阶段之间添加了单独的下采样层;作者探索了一种类似的策略,其中使用步长为 2 的 2×2 卷积层进行空间下采样。进一步的研究表明,在空间分辨率发生变化的地方添加归一化层有助于稳定训练。通过这一过程,将准确率提高到 82.0%,大大超过 Swin-Tiny 的 81.3%。
在后续的网络结构中都将使用单独的下采样层,结合以上所有改进,形成了最终的模型,将其称为 ConvNeXt——纯粹的 ConvNet,在这种计算机制下,它在 ImageNet-1K 分类方面的性能优于 Swin Transformer。我们的 ConvNeXt 模型与 Swin Transformer 具有大致相同的 FLOPs、参数、吞吐量和内存使用量,但不需要专用模块,例如移动窗口注意力或相对位置偏差。之后将在数据和模型大小方面扩展 ConvNeXt 模型,并在目标检测和语义分割等下游任务上对其进行评估。
ResNet-50、Swin-Tiny 和 ConvNeXt-Tiny 的详细架构对比如下表所示
3、Empirical Evaluations on ImageNet:ImageNet 的实证评估
我们构建了不同的 ConvNeXt 变体:ConvNeXtT/S/B/L,其复杂性与 Swin-T/S/B/L 相似。ConvNeXt-T/B 分别是在 ResNet-50/200 的基础上进行现代化改进所得到的最终产品。此外还构建了一个更大的ConvNeXt-XL来进一步测试 ConvNeXt 的可扩展性。这些变体仅仅在通道 C 的数量和每个阶段中块 B 的数量上有所不同;和 ResNet 和 Swin Transformer 一样,每个新阶段的通道数量都会增加一倍。
作者总结了以下配置:
• ConvNeXt-Tiny:C = (96, 192, 384, 768), B = (3, 3, 9, 3)
• ConvNeXt-Small:C = (96, 192, 384, 768), B = (3, 3, 27, 3)
• ConvNeXt-Base:C = (128, 256, 512, 1024), B = (3, 3, 27, 3)
• ConvNeXt-Large:C = (192, 384, 768, 1536), B = (3, 3, 27, 3)
• ConvNeXt-extra Large:C = (256, 512, 1024, 2048), B = (3, 3, 27, 3)
3.1、Settings 设置
ImageNet-1K 数据集由 1000 个类别和 120 万张训练图像组成。我们报告了验证集上 ImageNet-1K top-1 的准确性,并在ImageNet-22K 上进行预训练,这是一个包含 21841 个类别的更大数据集(1000 个 ImageNet-1K 类的超集),其包含 1400 万图像进行预训练,然后在ImageNet-1K上微调预训练模型进行评估。
Training on ImageNet-1K:ImageNet-1K的训练。使用 AdamW 训练ConvNeXts 300个epoch,lr=4e-3;前20个epoch为线性预热,学习率会从0线性增加到设定的初始值(4e-3)之后使用余弦衰减策略,学习率会按照余弦衰减函数的形状进行调整;batchsize为4096,weight decay为0.05。对于数据增强,采用常见的方案,包括 Mixup、Cutmix、RandAugment 和 Random Erasing;使用随机深度和标签平滑对网络进行正则化。在每个残差块的输出上添加一个小的缩放因子,帮助稳定训练。使用指数移动平均线(EMA),可以缓解较大模型的过度拟合。
Pre-training on ImageNet-22K:在 ImageNet-22K 上进行预训练。在 ImageNet-22K 上预训练 ConvNeXts 90 个周期,并预热 5 个周期,不使用 EMA,其他设置遵循ImageNet-1K。
Fine-tuning on ImageNet-1K:在 ImageNet-1K 上进行微调。在 ImageNet-1K 上对 ImageNet22K 预训练模型进行 30 个 epoch 的微调。使用 AdamW,学习率为 5e-5,余弦学习率策略,逐层学习率衰减,无预热,批量大小为 512,权重衰减为 1e-8。 默认的预训练、微调和测试分辨率为 224×224。此外,对于 ImageNet-22K 和 ImageNet-1K 预训练模型,以更大的分辨率 384×384 进行微调。与 ViTs/Swin Transformers 相比,ConvNeXts 更容易在不同分辨率下进行微调,因为网络是全卷积的,不需要调整输入 patch 大小或插值绝对/相对位置偏差。
3.2、Results 结果
ImageNet-1K结果。下表显示了 ConvNeXt 与两个最新 Transformer 变体 DeiT 和 Swin Transformers 以及来自 NAS 的RegNets、EfficientNets 和 EfficientNetsV2 的结果比较。在精度计算权衡以及推理吞吐量方面,ConvNeXt 可以与两个强大的 ConvNet 基线(RegNet 和 EfficientNet) 竞争。ConvNeXt 的性能也优于具有相似复杂性的 Swin Transformer
ImageNet-22K结果。在下表中展示了根据 ImageNet-22K 预训练微调的模型的结果。结果表明,在使用大型数据集进行预训练时,正确设计的 ConvNet 并不逊色于视觉 Transformer,ConvNeXts 的性能仍然与类似大小的 Swin Transformer 相当或更好,吞吐量稍高。此外,ConvNeXt-XL 模型的准确率达到 87.8%,比 ConvNeXt-L 的 384×384 有了相当大的改进,这表明 ConvNeXt 是可扩展的架构。
4、Conclusions 结论
在 2020 年代,视觉 Transformers,特别是像 Swin Transformers 这样的层次结构,开始取代 ConvNet,成为通用视觉主干的首选。人们普遍认为,视觉 Transformer 比 ConvNet 更准确、更高效、更可扩展。于是作者提出了 ConvNeXts,这是一种纯 ConvNet 模型,可以在多个计算机视觉基准上与最先进的分层视觉 Transformer 竞争,同时保留标准 ConvNet 的简单性和效率。ConvNeXt 模型本身并不是全新的,许多的设计选择在过去十年中都经过单独检验,但没有集体检验。作者希望本研究报告的新结果能够挑战几种广泛持有的观点,并促使人们重新思考卷积在计算机视觉中的重要性。
总的来说,Convnext超过了大部分现代卷积网络的性能,并且能够与SwinT相媲美,模型复杂度和计算复杂度更有优势,可见Convnext的强大。