Transformer 中 Encoder 结构解读_by 弘毅

1. Seq2seq model

1.1 Seq2seq model 的应用场景

语音辨识，中文音频到中文文字，音频到文字
语言翻译，中文文字到英文，文字到文字；
语音翻译，中文音频到英文文字，结合上述两个；
世界上7000 多种语言，还有很多语言，还没有文字，
文本到语音：输入文本，输出音频；
用于文法解析（用于编译过程中，编译），seqseq for syntactic Parsing， “ Grammar as Foreign Language ” 14 年；
for Muli label calssifiction: 即同一个目标对象它同时属于多个标签；
区别于Mutil class, 多个类别中分类出一个类别；
for Object Detectiono;

2. Seq2seq model 组成模块

主成分两块：

Encoder
Decoder 部分；

2. Encoder 编码器

多个输入向量编码后得到多个输出向量
请添加图片描述

3. Transformer 中的 Encoder

Transformer 中的Encodr 编码器可以看做是多个Block 组成。
每个Block 在 self attention 的基础上增加了残差连接 + Layer Norm + FC；
注意，这里每一个Block 是模型中多个 Layer 所做的事情；

请添加图片描述

3.1 单个Block 中的内容

每个Block中包含了：
自注意力机制 + 残差链接 + LayerNorm + FC + 残差链接 + layer Norm, 此时的输出 = 一个 Block 的输出；

请添加图片描述

3.2 单个Block 中的具体实现步骤

原始的输入向量 $b$ 与输出向量 $a$ 残差相加得到向量 $a + b$ ；
注意， $b$ 是原始的输入向量，下图中输出向量 $a$ 是考虑整个序列的输入向量得到的结果；

请添加图片描述

  Layer Normation:   不需要考虑batch;
  同一个样本， 同一个 feature ,  不同的 dimeation 中 去计算 mean 和 方差；
  Batch Normalization: 
 不同的样本， 不同的特征，但是 同一个 dimeation 去计算  mean ，和方差；

将向量 $a + b$ 通过 Layer Normation 得到向量 $c$ ;

图中左侧部分：
在这里插入图片描述
图中右侧部分：

将向量 $c$ 通过 FC layer 得到向量 $d$ ;
向量 $c$ 与向量 $d$ 残差相加，得到向量 $e$ ；
向量 $e$ 通过 Layer Norm 输出向量 $f$ ，
此时得到的输出向量 $f$ 才是 Encoder中单个Block中的一个输出向量；

3.3 上述步骤的等价

上述步骤，便是原始论文Transformer 中,Encoder 的设计;

注意到，这里的Multi Head Attention 多头注意力，是 self attention 的基础上增加了 $q$ , $k$ , $v$ 的数量，从而称作是多头；
请添加图片描述

3.4 网络的优化

更改LayerNorm 的位置顺序；
更换层， layerNorm --> PowerNorm;

请添加图片描述

Transformer 中 Encoder 结构解读_by 弘毅

1. Seq2seq model

1.1 Seq2seq model 的应用场景

2. Seq2seq model 组成模块

2. Encoder 编码器

3. Transformer 中的 Encoder

3.1 单个Block 中的内容

3.2 单个Block 中的具体实现步骤

3.3 上述步骤的等价

3.4 网络的优化

悦读