NLP学习—10.循环神经网络RNN与LSTM、GRU、双向LSTM以及基于PyTorch的代码实现

文章目录

一、为什么需要循环神经网络？

虽然全连接神经网络理论上只要训练数据足够，给定特定的x，就能得到希望的y，但是全连接神经网络只能处理独立的输入，前一个输入和后一个输入是完全没有关系的。针对某些任务需要能够更好的处理序列的信息，即前面的输入和后面的输入是有关系的情况，此时，就需要用到循环神经网络RNN，该神经网络能够很好的处理序列信息。

标准的全连接神经网络（fully connected neural network）处理序列数据会有两个问题：
1）全连接神经网络输入层和输出层长度固定，而不同序列的输入、输出可能有不同的长度，选择最大长度并对短序列进行填充（pad）不是一种很好的方式；
2）全连接神经网络同一层的节点之间是无连接的，当需要用到序列之前时刻的信息时，全连接神经网络无法做到，一个序列的不同位置之间无法共享特征。

二、RNN的原理

参考于一文搞懂RNN（循环神经网络）基础篇
一个简单的循环神经网络，它由输入层、隐藏层（单个）、输出层构成。
在这里插入图片描述

x是输入层的值
U是输入层到隐藏层的权重矩阵
s是隐藏层的值
权重矩阵 W就是上一个时刻隐藏层的值作为这一时刻的输入的权重。循环神经网络的隐藏层的值s不仅仅取决于当前时刻的输入x，还取决于前一时刻隐藏层的值s。
V是隐藏层到输出层的权重矩阵

注意事项：参数 $U 、 V 、 W$ 在RNN中是共享的。
下图展示了上一时刻的隐藏层是如何影响当前时刻的隐藏层的。
在这里插入图片描述
循环神经网络时间线展开图为：

这个网络在t时刻接收到输入 $x_t$ 之后，隐藏层的值是 $s_t$ ，输出值是 $o_t$ 。 $s_t$ 的值不仅仅取决于 $x_t$ ，还取决于 $s_{t-1}$ 。
循环神经网络计算方法用公式表示为：
在这里插入图片描述
此处的 $g$ 在分类中为softmax函数。
下图展示了一个最简单的使用单个全连接层作为循环体 A 的 RNN。图中黄色的 tanh 小方框表示一个使用 tanh 作为激活函数的全连接层。

$t$ 时刻循环体 A 的输入包括 $X_t$ 和从 $t - 1$ 时刻传递来的隐藏状态 $h_{t-1}$ 。循环体 A 的两部分输入如何处理呢？将 $X_t$ 和 $h_{t-1}$ 直接拼接起来，成为一个更大的矩阵/向量 [ $X_t$