Patch-Wise Attention Network

欢迎访问我的博客首页。

PWA

1. 整体结构
2. 块级注意力
- 2.1 块级通道注意力
- 2.2 块级空间注意力
3. 参考

这篇文章来自韩国科学技术院 KAIST，所提方法称为 PWA。PWA 基于编解码器结构，主要创新是提出了局部注意力。注意力机制增加的参数量是可接受的，它可以提供综合性能，且容易整合进 CNN 框架。

1. 整体结构

PWA 的注意力是针对块的，即，每个块有一个注意力。 $s_p$ 是块的边长，共有 $L/s_p \times L/s_p$ 个块。
图 1 是整体架构。解码器输出的局部上下文特征 $F . s h a p e = (C, L)$ 和 DenseASPP 输出的全局上下文特征 $F_G.shape=(C, L/s_p)$ 都被送入 PWA。PWA 的输出经过卷积层、激活函数层，再乘一个最大深度值，得到最终的深度图。

$图\ 1\quad 整体结构$

2. 块级注意力

PWA 的块级注意力包括块级通道注意力和块级空间注意力，图 2 是块级注意力结构。

$图\ 2\quad 块级注意力$

2.1 块级通道注意力

块级通道注意力

局部上下文特征 $F$ 分别经过 $kernel\_size=s_p$ 的最大池化、平均池化得到 $F_{max}^c.shape=(C, L/s_p)$ 、 $F_{avg}^c.shape=(C, L/s_p)$ 。
全局上下文特征 $F_G$ 和来自局部上下文特征的 $F_{max}^c$ 、 $F_{avg}^c$ 沿通道叠加，经过一个 $kernel\_size=3$ 的卷积 $Conv_c$ 得到 $F_c.shape=(C, L/s_p)$ 。 $F_c$ 的每个像素 $i . s h a p e = (C, 1)$ 代表原图上一个边长为 $s_p$ 的块。它即包含局部上下文特征 $F$ ，又包含全局上下文特征 $F_G$ 。
把 $F_c$ 的每个像素经过一个感知机，得到 $E_i^c.shape=(C, 1)$ 。把 $L/s_p \times L/s_p$ 个 $E_i^c$ 按 $i$ 的原位置拼接，得到通道注意力 $E_c.shape=(C, L/s_p)$ 。
$E_c$ 上采样后与 $F$ 相乘得到沿通道精炼过的特征 $F^{'} . s h a p e = (C, L)$ 。

$F_c$ 的每个通道被输入一个感知机，所以感知机总数是 $batch\_size \times (L/s_p \times L/s_p)$ 。每个感知机的输入是一个 $\times 1 \times 1$ 的向量。每个感知机含有一个通道数是 C/8 的隐藏层和一个 sigmoid 激活函数。具体实现参考下面的代码：

class MPL(torch.nn.Module):
    def __init__(self, in_features, hidden_features):
        super().__init__()
        self.net = torch.nn.Sequential(
            torch.nn.Linear(in_features, hidden_features),
            torch.nn.Linear(hidden_features, 1),
            torch.nn.ReLU()
        )
        self.init()

    def init(self):
        for m in self.net.modules():
            if isinstance(m, torch.nn.Linear):
                torch.nn.init.normal_(m.weight)

    def forward(self, input):
        return self.net(input)

def pixelwise_mpl(input, hidden_features=None):
    if hidden_features is None:
        hidden_features = input.size(1) // 8
    batch_size = input.size(0)
    in_features = input.size(1)
    h = input.size(2)
    w = input.size(3)
    output = torch.zeros(size=(batch_size, 1, h, w))
    for y in range(h):
        for x in range(w):
            net = MPL(in_features, hidden_features)
            output[:, :, y, x] = net(input[:, :, y, x])
    return output

if __name__ == '__main__':
    input = torch.tensor(np.random.random(size=(8, 64, 32, 32)), dtype=torch.float32)
    output = pixelwise_mpl(input)
    print(output.shape)

2.2 块级空间注意力

块级空间注意力

全局上下文特征 $F_G$ 上采样得到 $F_G^I.shape=(C, L)$ 。
把 $F_G^I$ 和沿通道精炼过的特征 $F^{'}$ 沿通道维度叠加，经过 $kernel\_size=3$ 的卷积 $Conv_s$ 得到 $F_s.shape=(C, L)$ 。
沿着 $F_s$ 通道分别进行最大池化、平均池化得到 $F_{max}^s.shape=(1, L)$ 、 $F_{avg}^s.shape=(1, L)$ 。这里是对每个 $\times 1 \times 1$ 的像素池化，池化后的像素维度是 $\times 1 \times 1)$ 。
把 $F_{max}^s$ 和 $F_{avg}^s$ 沿通道维度叠加，得到特征 $F_{Pool}^s.shape=(2, L)$ 。
把 $F_{Pool}^s$ 拆分成 $L/s_p \times L/s_p$ 个边长为 $s_p$ 的块。每一个块 $j.shape=(2, s_p)$ 经过一个 $kernel\_size=7$ 、步长为 $1$ 的卷积 $Conv_j$ 和 $s i g m o i d$ 激活函数，得到一个空间注意力 $E_j^s.shape=(1, s_p)$ 。
把 $L/s_p \times L/s_p$ 个 $E_s^j$ 按 $j$ 的原位置拼接，得到空间注意力 $E_s.shape=(1, L)$ 。
增加 $E_s$ 的通道，然后与 $F^{'}$ 相乘，得到 $F^{''} . s h a p e = (C, L)$ 。
把 $F^{''}$ 、 $F$ 、 $F_G^I$ 相加得到 Output Feature。

def pixelwise_pooling(input, pool=torch.nn.AdaptiveMaxPool1d):
    batch_size = input.size(0)
    h = input.size(2)
    w = input.size(3)
    output = torch.zeros(size=(batch_size, 1, h, w))
    for y in range(h):
        for x in range(w):
            pooling = pool(output_size=1)
            output[:, :, y, x] = pooling(input[:, :, y, x])
    return output

if __name__ == '__main__':
    input = torch.tensor(np.random.random(size=(8, 64, 32, 32)), dtype=torch.float32)
    output = pixelwise_pooling(input)
    print(output.shape)

3. 参考

论文，AAAi。
讲解，知乎。