Bootstrap

什么是自回归模型

自回归模型是一种统计模型,它用来描述某个变量的当前值与其自身过去的值之间的关系。这种模型广泛应用于时间序列数据分析,其中一个变量的历史值被用来预测其未来值。在自回归模型中,当前时点的值被视为过去若干时点值的线性函数。

自回归模型的定义

自回归模型(Autoregressive Model, AR模型)是时间序列分析中的一种基本模型,其核心思想是当前观测值可以通过其过去的若干个观测值的加权和来预测,其中的权重参数由数据自身决定。数学上,一个自回归模型可以表示为:

[ X t = c + ϕ 1 X t − 1 + ϕ 2 X t − 2 + ⋯ + ϕ p X t − p + ϵ t X_t = c + \phi_1 X_{t-1} + \phi_2 X_{t-2} + \cdots + \phi_p X_{t-p} + \epsilon_t Xt=c+ϕ1Xt1+ϕ2Xt2++ϕpXtp+ϵt ]

其中:

  • ( X t X_t Xt ) 是在时间 ( t t t ) 的观测值。
  • ( c c c ) 是常数项(也可以为0)。
  • ( ϕ 1 , ϕ 2 , … , ϕ p \phi_1, \phi_2, \ldots, \phi_p ϕ1,ϕ2,,ϕp ) 是模型参数,反映了前 ( p ) 个时间点的观测值对当前值的影响大小。
  • ( p p p ) 是模型的阶数,指模型中包括多少个时间步的滞后值。
  • ( $ e p s i l o n t epsilon_t epsilont$ ) 是误差项,假设它是白噪声。
自回归模型的特点
  1. 依赖性:自回归模型假设时间序列数据的当前值依赖于其历史值。
  2. 参数化:模型通过确定参数 ( ϕ 1 , ϕ 2 , … , ϕ p \phi_1, \phi_2, \ldots, \phi_p ϕ1,ϕ2,,ϕp ) 来形成对历史数据的依赖关系。
  3. 自相关性:这种模型的一个关键特征是自相关性,即序列的当前值与其过去值之间存在相关关系。
自回归模型的局限性

虽然自回归模型在许多场合下表现良好,但它依赖于几个假设:

  • 时间序列是平稳的,即其统计属性如均值、方差和自相关结构不随时间变化。
  • 模型假定过去的值是未来值的唯一决定因素,忽略了可能存在的外部影响因素。

自回归模型在处理具有复杂季节性或非线性特征的时间序列数据时可能需要进行调整或与其他模型(如移动平均模型、差分自回归移动平均模型等)结合使用。

总之,自回归模型是时间序列分析中的一个强大工具,它提供了一种相对简单的方法来模拟和预测序列数据。不过,正确的模型选择和参数估计是实现有效预测的关键。

序列的联合分布通过概率的链式法则的方式,充分展现了如何从基本的概率原则中构建复杂的序列依赖关系。在给出的文本例子中,整个句子“the mouse ate the cheese”的生成可以看作是一步步根据前面的词汇来决定下一个词汇的过程。

概率的链式法则

链式法则是概率论中的一个基本法则,用于**将多变量联合概率分解为条件概率的乘积。**对于序列 ( x 1 : L x_{1:L} x1:L) 而言,每一个词 ( x i x_i xi) 的出现不仅仅依赖于它前面的一个词,而是依赖于它前面所有的词的累积上下文 ( x 1 : i − 1 x_{1:i-1} x1:i1)。这种分解方法非常有用,因为它允许我们逐步构建和计算整个序列的概率,即便是在序列非常长的情况下。
p ( x 1 : L ) = p ( x 1 ) p ( x 2 ∣ x 1 ) p ( x 3 ∣ x 1 , x 2 ) ⋯ p ( x L ∣ x 1 : L − 1 ) = ∏ i = 1 L p ( x i ∣ x 1 : i − 1 ) . p(x_{1:L}) = p(x_1) p(x_2 \mid x_1) p(x_3 \mid x_1, x_2) \cdots p(x_L \mid x_{1:L-1}) = \prod_{i=1}^L p(x_i \mid x_{1:i-1}). p(x1:L)=p(x1)p(x2x1)p(x3x1,x2)p(xLx1:L1)=i=1Lp(xix1:i1).

p ( t h e , m o u s e , a t e , t h e , c h e e s e ) =   p ( t h e ) p ( m o u s e ∣ t h e ) p ( a t e ∣ t h e , m o u s e ) p ( t h e ∣ t h e , m o u s e , a t e ) p ( c h e e s e ∣ t h e , m o u s e , a t e , t h e ) . \begin{align*} p({the}, {mouse}, {ate}, {the}, {cheese}) = \, & p({the}) \\ & p({mouse} \mid {the}) \\ & p({ate} \mid {the}, {mouse}) \\ & p({the} \mid {the}, {mouse}, {ate}) \\ & p({cheese} \mid {the}, {mouse}, {ate}, {the}). \end{align*} p(the,mouse,ate,the,cheese)=p(the)p(mousethe)p(atethe,mouse)p(thethe,mouse,ate)p(cheesethe,mouse,ate,the).

自回归语言模型

自回归语言模型的特点是,它能够逐一生成序列中的每个词 (x_i),每个词的生成都是基于之前所有词的条件概率。这种模型通常利用神经网络(如**LSTM、GRU或Transformer)**来计算每个条件概率 ( p ( x i ∣ x 1 : i − 1 ) p(x_i \mid x_{1:i-1}) p(xix1:i1))。

例如,当模型生成文本“the mouse ate the cheese”时:

  • 它首先生成“the”,这是基于 ( p ( t h e ) p({the}) p(the))。
  • 接着生成“mouse”,这是基于 ( p ( m o u s e ∣ t h e ) p({mouse} \mid {the}) p(mousethe))。
  • 然后是“ate”,基于 ( p ( a t e ∣ t h e , m o u s e ) p({ate} \mid {the}, {mouse}) p(atethe,mouse)),以此类推。

温度参数 (T)

在生成文本时,温度参数 (T) 起着调控随机性程度的关键作用:
 for  i = 1 , … , L : x i ∼ p ( x i ∣ x 1 : i − 1 ) 1 / T , \begin{aligned} \text { for } i & =1, \ldots, L: \\ x_i & \sim p\left(x_i \mid x_{1: i-1}\right)^{1 / T}, \end{aligned}  for ixi=1,,L:p(xix1:i1)1/T,

  • (T = 0):模型将完全确定性地选择概率最高的词。这通常会导致非常重复和可预测的文本生成。
  • (T = 1):模型按照学习到的条件概率分布进行采样,这通常能够平衡随机性和准确性,生成既自然又多样化的文本。
  • ( T → ∞ T \rightarrow \infty T):模型的行为趋向于完全随机,每个词都是从词汇表中均匀随机选取,不考虑上下文,通常不会生成有意义的文本。

在解释退火条件概率分布以及与温度参数 ( T ) 相关的重标准化概念之前,我们先了解温度参数 ( T ) 如何影响概率分布,以及为什么需要重标准化。

温度参数 ( T ) 的作用

温度参数 ( T ) 是在生成模型中使用的一个技术,用于调节生成过程中的随机性。当 ( T ) 的值较低(接近0)时,模型倾向于选择概率最高的输出(令牌),导致生成的文本确定性很强,可能过于重复和缺乏多样性。当 ( T ) 值较高时,概率分布变得更加均匀,增加了随机性,从而产生更多样化的输出。

退火概率分布的需要

直接对条件概率 ( p ( x i ∣ x 1 : i − 1 ) p(x_i \mid x_{1:i-1}) p(xix1:i1) ) 应用 ( 1 / T 1/T 1/T ) 的幂运算会导致分布的概率总和不再是1,这是因为概率密度在经过幂运算后会失去其原有的标准化性质。因此,必须对这些新的概率值进行重标准化(即让所有概率值之和重新等于1),以保持概率分布的有效性。这个过程被称为“ 退火 退火 退火”。

退火条件概率分布的计算

假设有原始的条件概率 ( p ( x i ∣ x 1 : i − 1 ) p(x_i \mid x_{1:i-1}) p(xix1:i1) ),退火处理后的条件概率分布计算如下:

  1. 计算幂调整值:对每个可能的输出 ( x i x_i xi ) 的概率应用 ( 1 / T 1/T 1/T ) 的幂:
    [
    p ′ ( x i ) = p ( x i ∣ x 1 : i − 1 ) 1 / T p'(x_i) = p(x_i \mid x_{1:i-1})^{1/T} p(xi)=p(xix1:i1)1/T
    ]
  2. 重标准化:将所有调整后的概率值除以它们的总和,确保这些值的和为1:
    [
    p T ( x i ∣ x 1 : i − 1 ) = p ′ ( x i ) ∑ x i p ′ ( x i ) p_T(x_i \mid x_{1:i-1}) = \frac{p'(x_i)}{\sum_{x_i} p'(x_i)} pT(xix1:i1)=xip(xi)p(xi)
    ]

例子解释

通过上述的例子,我们看到不同的 ( T ) 值如何显著改变概率分布:

  • ( T=0.5 ):概率变得稍微平均一些,“mouse” 的概率从 0.6 降低到 0.69,而 “cheese” 从 0.4 增加到 0.31。
  • ( T=0.2 ):模型更加偏向于选择概率较高的 “mouse”,导致 “mouse” 的概率增加到 0.88,“cheese” 降低到 0.12。
  • ( T=0 ):模型完全选择概率最高的 “mouse”,使得 “mouse” 的概率为 1,而 “cheese” 为 0。

条件生成

通过指定一个前缀(prompt),模型可以在给定的上下文后生成接下来的文本(completion)。根据 ( T ) 的不同,这个生成过程可以有不同的随机性和多样性,从而生成不同的补全文本。当 ( T = 1 ) 时,生成的文本具有较高的多样性;而 ( T = 0 ) 时,则完全确定性地选择概率最高的续写。

这种基于温度调节的生成策略,允许调整模型生成文本的随机性和多样性,是现代语言模型特别是自回归模型在实际应用中的一种重要技术。

1.2总结

  • 语言模型是序列 x 1 : L x_{1:L} x1:L 的概率分布 p。
  • 直观上,一个好的语言模型应具有语言能力和世界知识。
  • 自回归语言模型允许有效地生成给定提示 x 1 : i x_{1:i} x1:i 的补全 x i + 1 : L x_{i+1:L} xi+1:L
  • 温度可以用来控制生成中的变异量。
;