AIGC实战——自回归模型
0. 前言
自回归模型 (Autoregressive Model
) 通过将生成问题视为一个序列过程来简化生成模型。自回归模型将预测条件建立在序列中的先前值上,而不是一个以随机潜变量为条件。因此,自回归模型尝试对数据生成分布进行显式建模,而不是尝试近似数据分布。在本节中,将介绍一类经典的自回归模型,长短期记忆网络 (Long Short-Term Memory Network
, LSTM
),并将 LSTM
应用于生成文本数据。
1. 长短期记忆网络基本原理
长短期记忆网络 (Long Short-Term Memory Network
, LSTM
) 是一种特殊类型的循环神经网络 (Recurrent Neural Network
, RNN
)。RNN
包含一个循环层(或单元),该层能够通过使其在特定时间步长的输出作为下一时间步长的输入的一部分来处理序列数据,LSTM
网络是拥有 LSTM
循环层的神经网络。
原始 RNN
中,循环层非常简单,仅由 tanh
操作组成,用于确保在时间步之间传递的信息被缩放至