Bootstrap

【Paper Note】Video Swin Transformer

文章链接:https://arxiv.org/abs/2106.13230

代码链接:https://github.com/SwinTransformer/Video-Swin-Transformer

介绍

本文提出的Video Swin Transformer,严格遵循原始Swin Transformer的层次结构,但将局部注意力计算的范围从空间域扩展到时空域。由于局部注意力是在非重叠窗口上计算的,因此原始Swin Transformer的滑动窗口机制也被重新定义了,以适应时间和空间两个域的信息。

在时空距离上更接近的像素更有可能相关 ,作者在网络结构中利用了这个假设偏置,所以达到了更高的建模效率。

架构

在这里插入图片描述
Video Swin Transformer的总体结构如上图所示。输入的视频数据为 T × H × W × 3 T×H×W×3 T×H×W×3
的张量,由T帧的 H × W × 3 H×W×3 H×W×3的图片组成。在Video Swin Transformer中,作者用的3D patch的大小为$ 2×4×4×3$,因此就可以得到 T / 2 × H / 4 × W / 4 × 3 T/2×H/4×W/4×3 T/2×H/4×W/4×3个 3D Patch,然后用线性embedding层将特征映射到维度为C的token embedding。

为了能够严格遵循Swin Transformer的层次结构,作者在时间维度上没有进行降采样,每个stage只在空间维度上进行了

;