【论文精读】Taming Transformers for High-Resolution Image Synthesis - 悦读

【论文精读】Taming Transformers for High-Resolution Image Synthesis

1 论文背景

团队：海德堡大学图像处理实验室
时间：2020

2 动机

Transformer已经在自然语言处理上成功应用，但是在图像处理方面应用有限，图片最大只能处理64x64。主要限制在于：

序列长度和算力需求的平方成正比，对于高清图像（可以理解为HxW更长的序列），所需算力更高。
比CNN针对性更弱。has to learn all relationships while CNNs have been designed to exploit prior knowledge about strong local correlations within images.

CNN具有归纳偏置（https://zhuanlan.zhihu.com/p/537658409），主要是局部性和平移不变性，在这2个先验信息前提下，CNN学习速度更快，因此在小样本的图片处理任务中优于Transformer。

这篇论文就是将CNN和Transformer结合起来，将CNN的归纳偏置的性能和Transformer的表达能力相结合，用于高清的图片生成。

高清图片生成需要2个关键能力，并通过2个模型组合实现：

局部现实，猫是猫，狗是狗，locally realistic，依赖CNN
全局一致性，之前往左转，之后继续往左转，globally consistent，依赖Transformer

3 具体做法

采用VQVAE/VQGAN（向量量化变分自编码器）用CNN将图片进行特征提取，得到具有丰富上下文信息的（context-rich）codebook，并解码得到原始图像，保证中间的codebook包含了最有效的压缩信息（perceptually important local structure）。

之所以用codebook，是因为codebook是有限集合，能够减少枚举难度，降低描述难度。

由于采用VQ，因此用下标index即可代表某向量
然后用Transformer建模连续多张图片的index，并推理下一张的index，然后进行解码即可。

在使用VQGAN时

下采样层数不能太多，否则会导致重建能力下滑degradation of the reconstruction quality beyond a critical value of downsampling blocks m
下采样层数不能太少，否则感受野不够大，信息不够丰富For small receptive fields, or equivalently small f, the model cannot capture coherent structures.

悦读

道可道，非常道；名可名，非常名。无名，天地之始，有名，万物之母。故常无欲，以观其妙，常有欲，以观其徼。此两者，同出而异名，同谓之玄，玄之又玄，众妙之门。

利用OpenVSwitch在多台主机上部署Docker的教程

两种Excel工作簿保护攻略：防止工作表被添加、删除或移动

数据库（mysql）忘记密码解决办法

SpringBoot+Maven打包：Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:2.6报错

C++数组的详细解析

软件缺少NcaApi.dll文件及错误提示问题

空间连接时计算总和_计算机组成原理试题集(含答案)

基于MATLAB的条形码识别系统

[FreeRTOS]互斥量的创建和使用-STM32CUBEMX

;