Bootstrap

MB-TaylorFormer论文解读

一、摘要

Transformer 网络因全局感受野和adaptability to input逐渐取代 CNN,但 softmax-attention 的二次复杂度限制其在高分辨率图像去雾中的应用。为此,提出了一种名为 MB-TaylorFormer 的新型 Transformer 变体,通过泰勒展开近似 softmax-attention,实现线性复杂度,并结合多尺度注意力模块纠正误差。此外,引入多分支架构和多尺度补丁嵌入,以可变形卷积嵌入不同感受野和语义特征。在多个去雾基准上,MB-TaylorFormer 展现出领先性能和较低计算成本。

二、背景

图像去雾任务中的直接应用面临以下挑战:

1)Transformer 的计算复杂度随特征图分辨率呈二次增长,限制了其在像素级任务中的适用性;2)现有视觉 Transformer 通常通过固定卷积核生成固定尺度的特征标记,缺乏灵活性。为了解决这些问题,作者提出了基于泰勒展开的 Transformer 变体 TaylorFormer 和多分支结构 MB-TaylorFormer

TaylorFormer 通过对 softmax 进行泰勒展开实现线性计算复杂度,同时保持全局建模能力,并在像素级交互中提供更精细的特征处理。为修正泰勒展开的误差,加入了多尺度注意力细化模块(MSAR),通过卷积提取局部信息,生成与多头自注意力对应的缩放因子,提高性能的同时计算开销极低。

针对特征标记的固定尺度问题,MB-TaylorFormer 采用多分支编码器-解码器架构,结合多尺度补丁嵌入模块,通过变形卷积生成具有多尺度、多维度特征的标记,并利用深度可分离方法减少计算复杂度。多分支结构可以同时处理不同尺度的特征标记,捕获更强大的特征。

实验结果表明,MB-TaylorFormer 在多种合成和真实去雾数据集上实现了参数量和计算量较低的同时,达到了最先进(SOTA)的性能。

图 :MB-TaylorFormer 的架构

(a) MB-TaylorFormer 采用了基于多尺度补丁嵌入的多分支分层设计。
(b) 多尺度补丁嵌入 实现从粗略到精细的特征嵌入。
(c) TaylorFormer 提供线性计算复杂度的注意力机制。
(d) MSAR 模块 用于补偿泰勒展开中的误差。

三、MB-TaylorFormer

MB-TaylorFormer 是一种高效轻量级的基于 Transformer 的去雾网络,旨在降低计算复杂度。通过对 Softmax-attention 的泰勒展开,满足结合律并结合类似 Restormer 的 U-net 结构。此外,为了弥补泰勒展开误差的影响,提出了 MSAR 模块。核心模块包括多尺度 patch 嵌入(Multi-scale Patch Embedding)、泰勒展开自注意力(Taylor Expanded Self-Attention)以及 MSAR 模块。

3.1 多分支主干网络

给定输入雾图 ,网络的主要架构是一个四阶段的编码-解码网络:

  • 初始通过卷积提取浅层特征,生成
  • 每个阶段包含一个残差块,该块由多尺度 patch 嵌入和多分支 Transformer 块组成:
    • 多尺度 patch 嵌入:生成多尺度的视觉 token。
    • 多分支 Transformer 块:每个分支包含多个 Transformer 编码器。
    • 使用 SKFF 模块融合分支生成的特征。
  • 采样操作:采用像素重排列(pixel-unshuffle 和 pixel-shuffle)进行下采样和上采样。
  • 跳跃连接:结合编码器和解码器的信息,除第一阶段外使用 1×1卷积降维。
  • 在编码-解码后添加残差块,恢复结构和纹理细节。
  • 最终用 3×3 卷积生成残差图 ,并通过 I′=I+R 输出去雾后的图像。

为进一步压缩计算量,模型采用深度可分离卷积(Depthwise Separable Convolutions, DSDCN)。

3.2 多尺度 Patch 嵌入

针对固定卷积核的问题,提出了一种新的多尺度 patch 嵌入,具有以下特点:

  • 多种感受野尺寸:使用不同尺度的可变形卷积核(DCN)并行生成粗细粒度的视觉 token。
  • 多层语义信息:堆叠小核的可变形卷积层,提升深度和语义信息。
  • 灵活的感受野形状:通过限制偏移范围(如 [−3,3]),实现对局部区域的关注。

通过引入 DSDCN(深度可分离与可变形卷积),显著降低了计算复杂度和参数量:

  • DSDCN 的计算复杂度和参数量分别比标准 DCN 更低。

感受野范围的限制实验表明,合理地设置 token 的感受野可提升模型性能。

DSDCN 的结构说明

DSDCN 的流程可以分为两个主要部分:偏移生成和特征提取。

  • 偏移生成

    • 首先,使用标准的 K×K深度卷积(Depthwise Convolution) 提取空间特征。
    • 然后,通过 逐点卷积(Pointwise Convolution, 1×1 卷积) 生成每个位置的偏移量。
    • 偏移量用于灵活调整卷积核的采样位置,以增强局部感受野的适应性。
  • 特征提取

    • 利用 K×K 的 深度可变形卷积(Depthwise Deformable Convolution, DCN) 进行特征提取。DCN 使用偏移量调整卷积核的位置,从而适应不同的局部区域特性。
    • 最后,通过一个逐点卷积整合深度卷积生成的特征,输出结果。

3.3 泰勒展开的多头自注意力(T-MSA)

传统的自注意力(MSA)计算复杂度为,针对这一高计算成本问题,作者引入泰勒展开方法,将复杂度降至 O(hw)。

核心方法:
  • 将 Softmax 替换为泰勒公式的一阶展开:

    其中,Q~i和 K~j是经过归一化的向量。

  • 通过矩阵乘法的结合律进行优化,显著减少计算复杂度。

  • 使用深度卷积生成 Q、K、V,强调局部上下文,并逐层增加多头结构的数量。

实验结果表明,在处理高分辨率图像时,T-MSA 能接近 MSA 的性能,同时大幅降低计算成本。

3.4 多尺度注意力优化

在多尺度注意力优化(MSAR)模块中,为了解决 T-MSA(Taylor-Multi-Scale Attention)中的近似误差,采用了局部信息学习来校正误差并提升高频信息处理能力。具体来说,通过将多头注意力机制中的 Q 和 K 矩阵重塑为 Qm,,拼接得到张量 T∈,然后通过多尺度分组卷积生成门控张量 G,最终通过以下公式得到优化后的输出:

其中 ,WP​ 和 WiQ,WiK,WiV为投影矩阵

论文地址:2308.14036 

官方代码地址: FVL2020/ICCV-2023-MB-TaylorFormer

悦读

道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。

;