MB-TaylorFormer论文解读

一、摘要

Transformer 网络因全局感受野和adaptability to input逐渐取代 CNN，但 softmax-attention 的二次复杂度限制其在高分辨率图像去雾中的应用。为此，提出了一种名为 MB-TaylorFormer 的新型 Transformer 变体，通过泰勒展开近似 softmax-attention，实现线性复杂度，并结合多尺度注意力模块纠正误差。此外，引入多分支架构和多尺度补丁嵌入，以可变形卷积嵌入不同感受野和语义特征。在多个去雾基准上，MB-TaylorFormer 展现出领先性能和较低计算成本。

二、背景

图像去雾任务中的直接应用面临以下挑战：

1）Transformer 的计算复杂度随特征图分辨率呈二次增长，限制了其在像素级任务中的适用性；2）现有视觉 Transformer 通常通过固定卷积核生成固定尺度的特征标记，缺乏灵活性。为了解决这些问题，作者提出了基于泰勒展开的 Transformer 变体 TaylorFormer 和多分支结构 MB-TaylorFormer。

TaylorFormer 通过对 softmax 进行泰勒展开实现线性计算复杂度，同时保持全局建模能力，并在像素级交互中提供更精细的特征处理。为修正泰勒展开的误差，加入了多尺度注意力细化模块（MSAR），通过卷积提取局部信息，生成与多头自注意力对应的缩放因子，提高性能的同时计算开销极低。

针对特征标记的固定尺度问题，MB-TaylorFormer 采用多分支编码器-解码器架构，结合多尺度补丁嵌入模块，通过变形卷积生成具有多尺度、多维度特征的标记，并利用深度可分离方法减少计算复杂度。多分支结构可以同时处理不同尺度的特征标记，捕获更强大的特征。

实验结果表明，MB-TaylorFormer 在多种合成和真实去雾数据集上实现了参数量和计算量较低的同时，达到了最先进（SOTA）的性能。

图：MB-TaylorFormer 的架构

(a) MB-TaylorFormer 采用了基于多尺度补丁嵌入的多分支分层设计。
(b) 多尺度补丁嵌入 实现从粗略到精细的特征嵌入。
(c) TaylorFormer 提供线性计算复杂度的注意力机制。
(d) MSAR 模块 用于补偿泰勒展开中的误差。

三、MB-TaylorFormer

MB-TaylorFormer 是一种高效轻量级的基于 Transformer 的去雾网络，旨在降低计算复杂度。通过对 Softmax-attention 的泰勒展开，满足结合律并结合类似 Restormer 的 U-net 结构。此外，为了弥补泰勒展开误差的影响，提出了 MSAR 模块。核心模块包括多尺度 patch 嵌入（Multi-scale Patch Embedding）、泰勒展开自注意力（Taylor Expanded Self-Attention）以及 MSAR 模块。

3.1 多分支主干网络

给定输入雾图，网络的主要架构是一个四阶段的编码-解码网络：

初始通过卷积提取浅层特征，生成。
每个阶段包含一个残差块，该块由多尺度 patch 嵌入和多分支 Transformer 块组成：
- 多尺度 patch 嵌入：生成多尺度的视觉 token。
- 多分支 Transformer 块：每个分支包含多个 Transformer 编码器。
- 使用 SKFF 模块融合分支生成的特征。
采样操作：采用像素重排列（pixel-unshuffle 和 pixel-shuffle）进行下采样和上采样。
跳跃连接：结合编码器和解码器的信息，除第一阶段外使用 1×1卷积降维。
在编码-解码后添加残差块，恢复结构和纹理细节。
最终用 3×3 卷积生成残差图，并通过 I′=I+R 输出去雾后的图像。

为进一步压缩计算量，模型采用深度可分离卷积（Depthwise Separable Convolutions, DSDCN）。

3.2 多尺度 Patch 嵌入

针对固定卷积核的问题，提出了一种新的多尺度 patch 嵌入，具有以下特点：

多种感受野尺寸：使用不同尺度的可变形卷积核（DCN）并行生成粗细粒度的视觉 token。
多层语义信息：堆叠小核的可变形卷积层，提升深度和语义信息。
灵活的感受野形状：通过限制偏移范围（如 [−3,3]），实现对局部区域的关注。

通过引入 DSDCN（深度可分离与可变形卷积），显著降低了计算复杂度和参数量：

DSDCN 的计算复杂度和参数量分别比标准 DCN 更低。

感受野范围的限制实验表明，合理地设置 token 的感受野可提升模型性能。

DSDCN 的结构说明

DSDCN 的流程可以分为两个主要部分：偏移生成和特征提取。

偏移生成：

首先，使用标准的 K×K深度卷积（Depthwise Convolution）提取空间特征。
然后，通过 逐点卷积（Pointwise Convolution, 1×1 卷积） 生成每个位置的偏移量。
偏移量用于灵活调整卷积核的采样位置，以增强局部感受野的适应性。

特征提取：

利用 K×K 的 深度可变形卷积（Depthwise Deformable Convolution, DCN） 进行特征提取。DCN 使用偏移量调整卷积核的位置，从而适应不同的局部区域特性。
最后，通过一个逐点卷积整合深度卷积生成的特征，输出结果。

3.3 泰勒展开的多头自注意力（T-MSA）

传统的自注意力（MSA）计算复杂度为，针对这一高计算成本问题，作者引入泰勒展开方法，将复杂度降至 O(hw)。

核心方法：

将 Softmax 替换为泰勒公式的一阶展开：

其中，Q~i和 K~j是经过归一化的向量。
通过矩阵乘法的结合律进行优化，显著减少计算复杂度。
使用深度卷积生成 Q、K、V，强调局部上下文，并逐层增加多头结构的数量。

实验结果表明，在处理高分辨率图像时，T-MSA 能接近 MSA 的性能，同时大幅降低计算成本。

3.4 多尺度注意力优化

在多尺度注意力优化（MSAR）模块中，为了解决 T-MSA（Taylor-Multi-Scale Attention）中的近似误差，采用了局部信息学习来校正误差并提升高频信息处理能力。具体来说，通过将多头注意力机制中的 Q 和 K 矩阵重塑为 Qm,，拼接得到张量 T∈，然后通过多尺度分组卷积生成门控张量 G，最终通过以下公式得到优化后的输出：

其中，WP 和 WiQ,WiK,WiV为投影矩阵

论文地址：2308.14036

官方代码地址： FVL2020/ICCV-2023-MB-TaylorFormer