Bootstrap

【论文精读】Taming Transformers for High-Resolution Image Synthesis

1 论文背景

  1. 团队:海德堡大学图像处理实验室
  2. 时间:2020

2 动机

Transformer已经在自然语言处理上成功应用,但是在图像处理方面应用有限,图片最大只能处理64x64。主要限制在于:

  1. 序列长度和算力需求的平方成正比,对于高清图像(可以理解为HxW更长的序列),所需算力更高。
  2. 比CNN针对性更弱。has to learn all relationships while CNNs have been designed to exploit prior knowledge about strong local correlations within images.

CNN具有归纳偏置(https://zhuanlan.zhihu.com/p/537658409),主要是局部性和平移不变性,在这2个先验信息前提下,CNN学习速度更快,因此在小样本的图片处理任务中优于Transformer。

这篇论文就是将CNN和Transformer结合起来,将CNN的归纳偏置的性能和Transformer的表达能力相结合,用于高清的图片生成。

高清图片生成需要2个关键能力,并通过2个模型组合实现:

  1. 局部现实,猫是猫,狗是狗,locally realistic,依赖CNN
  2. 全局一致性,之前往左转,之后继续往左转,globally consistent,依赖Transformer

3 具体做法

采用VQVAE/VQGAN(向量量化变分自编码器)用CNN将图片进行特征提取,得到具有丰富上下文信息的(context-rich)codebook,并解码得到原始图像,保证中间的codebook包含了最有效的压缩信息(perceptually important local structure)。

之所以用codebook,是因为codebook是有限集合,能够减少枚举难度,降低描述难度。

由于采用VQ,因此用下标index即可代表某向量
然后用Transformer建模连续多张图片的index,并推理下一张的index,然后进行解码即可。

在使用VQGAN时

  1. 下采样层数不能太多,否则会导致重建能力下滑degradation of the reconstruction quality beyond a critical value of downsampling blocks m
  2. 下采样层数不能太少,否则感受野不够大,信息不够丰富For small receptive fields, or equivalently small f, the model cannot capture coherent structures.
;