Bootstrap

基于 Metropolis 的朗之万算法

1. 未经调整的朗之万算法

未调整的朗之万算法 (ULA) 是一个离散时间马尔可夫链 U n \mathbf{U}_n Un,它是对普通朗之万扩散 L t \mathbf{L}_t Lt的自然离散化。

任何使用 ∥ P M n ( x , ⋅ ) − π ∥ → 0 \left\|P_{\mathrm{M}}^n(\mathbf{x}, \cdot)-\pi\right\| \rightarrow 0 PMn(x,)π0的简单算法都可以通过这种方式构造,例如 Parisi (1981) 或 Grenander 和 Miller (1994) 所描述的。

我们将看到,该算法可能具有一些不理想的收敛性质,尽管由于其实现可能比某些更稳健的替代方案需要较少的计算开销,因此它仍可能具有实际价值。

为了形成这个链,给定 U n − 1 \mathbf{U}_{n-1} Un1,我们只需根据以下公式构造 U n \mathbf{U}_n Un:
N ( U n − 1 + 1 2 ∇ log ⁡ π ( U n − 1 ) , h I k ) N\left(\mathbf{U}_{n-1}+\frac{1}{2} \nabla \log \pi\left(\mathbf{U}_{n-1}\right), h I_k\right) N(Un1+21logπ(Un1),hIk)正如 Besag (1994) 所指出的,这个链仅能近似维持 π \pi π 的不变性:例如,如果 π \pi π 本身在 R \mathbb{R} R上是 N ( 0 , 1 ) N(0,1) N(0,1) ,那么当 h = 2 h=2 h=2 时,我们有 U n ∼ N ( 0 , 2 ) U_n \sim N(0,2) UnN(0,2) ,这显然表明如果离散化步长 h h h 如此粗䊁,那么我们会得到立即"收敛",但却是到一个完全不期望的分布。

ULA 链实际上可能表现得相当糟糕:例如,即使原始扩散是指数遍历的,它可能会收敛但并非几何快速收敛,或者更为惊人的是,它实际上可能是一个瞬态链,尽管 L t \mathbf{L}_t Lt 具有非常良好的不变分布。

2. 基于 Metropolis 的朗之万算法 (MALA)

2.1. MH算法

这些算法首先考虑一个候选转移核,其密度为 q ( x , y ) q(\mathbf{x}, \mathbf{y}) q(x,y),其中 x , y ∈ X \mathbf{x}, \mathbf{y} \in \mathrm{X} x,yX,用于生成在 X X X 上演化的离散时间马尔可夫链的潜在转移。在此,我们通常将 X X X 视为 R k \mathbb{R}^k Rk 的子集,并配备了 Borel σ \sigma σ-代数 B \mathscr{B} B,同时 π ( y ) \pi(\mathbf{y}) π(y) q ( x , y ) q(\mathbf{x}, \mathbf{y}) q(x,y) 都是相对于 Lebesgue 测度 μ Leb  \mu^{\text {Leb }} μLeb  的密度,尽管更一般的形式化也是可能的。

根据密度 q ( x , ⋅ ) q(\mathbf{x}, \cdot) q(x,) 生成的“候选转移”到 y \mathbf{y} y 被接受的概率为 α ( x , y ) \alpha(\mathbf{x}, \mathbf{y}) α(x,y),其表达式为
( 1 ) α ( x , y ) = { min ⁡ { π ( y ) π ( x ) q ( y , x ) q ( x , y ) , 1 } π ( x ) q ( x , y ) > 0 1 π ( x ) q ( x , y ) = 0 (1)\quad \alpha(\mathbf{x}, \mathbf{y})= \begin{cases}\min \left\{\frac{\pi(\mathbf{y})}{\pi(\mathbf{x})} \frac{q(\mathbf{y}, \mathbf{x})}{q(\mathbf{x}, \mathbf{y})}, 1\right\} & \pi(\mathbf{x}) q(\mathbf{x}, \mathbf{y})>0 \\ 1 & \pi(\mathbf{x}) q(\mathbf{x}, \mathbf{y})=0\end{cases} (1)α(x,y)={min{π(x)π(y)q(x,y)q(y,x),1}1π(x)q(x,y)>0π(x)q(x,y)=0因此,Hastings 链的实际转移(我们记作 Φ n \Phi_n Φn)根据转移概率密度的规律 P P P 进行,其转移概率密度为
( 2 ) p ( x , y ) = q ( x , y ) α ( x , y ) , y ≠ x (2)\quad p(\mathbf{x}, \mathbf{y})=q(\mathbf{x}, \mathbf{y}) \alpha(\mathbf{x}, \mathbf{y}), \quad \mathbf{y} \neq \mathbf{x} (2)p(x,y)=q(x,y)α(x,y),y=x且保持在同一点的概率为
( 3 ) r ( x ) = P ( x , { x } ) = ∫ q ( x , y ) [ 1 − α ( x , y ) ] d y (3)\quad r(\mathbf{x})=P(\mathbf{x},\{\mathbf{x}\})=\int q(\mathbf{x}, \mathbf{y})[1-\alpha(\mathbf{x}, \mathbf{y})] \mathrm{d} \mathbf{y} (3)r(x)=P(x,{x})=q(x,y)[1α(x,y)]dy通过选择这样的 α \alpha α,我们有 π \pi π 是不变测度:即满足 π ( A ) = ∫ π ( x ) P ( x , A ) d x , x ∈ X , A ∈ B \pi(A) = \int \pi(\mathbf{x}) P(\mathbf{x}, A) \mathrm{d} \mathbf{x}, \mathbf{x} \in \mathrm{X}, A \in \mathscr{B} π(A)=π(x)P(x,A)dx,xX,AB

只要链具有适当的不可约性和非周期性,那么标准结果表明,定义为 n n n 步转移概率 P n ( x , A ) = P ( Φ n ∈ A ∣ Φ 0 = x ) P^n(\mathbf{x}, A) = P\left(\Phi_n \in A \mid \Phi_0 = \mathbf{x}\right) Pn(x,A)=P(ΦnAΦ0=x) 对于每个 n ≥ 1 n \geq 1 n1 而言, x ∈ X , A ∈ B \mathbf{x} \in \mathrm{X}, A \in \mathscr{B} xX,AB,在全变差范数下收敛于 π \pi π:即对于几乎所有 π \pi π 上的 x \mathbf{x} x
( 4 ) ∥ P n ( x , ⋅ ) − π ∥ : = 1 2 sup ⁡ A ∈ B ∣ P n ( x , A ) − π ( A ) ∣ → 0 (4)\quad \left\|P^n(\mathbf{x}, \cdot)-\pi\right\|:=\frac{1}{2} \sup _{A \in \mathscr{B}}\left|P^n(\mathbf{x}, A)-\pi(A)\right| \rightarrow 0 (4)Pn(x,)π:=21ABsupPn(x,A)π(A)0

2.2. 基于 Metropolis 的朗之万算法 (MALA)

根据 Besag (1994) 的建议,我们引入了进一步的修改,并遵循 (1) 和 (2) 式的结构,构造了基于 Metropolis 的朗之万算法 (MALA)。

这是一个 Hastings-Metropolis 链 M n \mathbf{M}_n Mn,它使用 ULA 来构造候选链。因此,在给定 M n − 1 \mathbf{M}_{n-1} Mn1 的情况下, U n \mathbf{U}_n Un 首先被设为如下分布的变量:
N ( M n − 1 + 1 2 h ∇ log ⁡ π ( M n − 1 ) , h I k ) N\left(\mathbf{M}_{n-1}+\frac{1}{2} h \nabla \log \pi\left(\mathbf{M}_{n-1}\right), h I_k\right) N(Mn1+21hlogπ(Mn1),hIk)将此提议密度记为 q ( M n − 1 , U n ) q\left(\mathbf{M}_{n-1}, \mathbf{U}_n\right) q(Mn1,Un)。接下来执行接受/拒绝步骤,接受 U n \mathbf{U}_n Un 的概率为
( 5 ) α ( M n − 1 , U n ) = 1 ∧ π ( U n ) q ( U n , M n − 1 ) π ( M n − 1 ) q ( M n − 1 , U n ) (5)\quad \alpha\left(\mathbf{M}_{n-1}, \mathbf{U}_n\right)=1 \wedge \frac{\pi\left(\mathbf{U}_n\right) q\left(\mathbf{U}_n, \mathbf{M}_{n-1}\right)}{\pi\left(\mathbf{M}_{n-1}\right) q\left(\mathbf{M}_{n-1}, \mathbf{U}_n\right)} (5)α(Mn1,Un)=1π(Mn1)q(Mn1,Un)π(Un)q(Un,Mn1)如果 U n \mathbf{U}_n Un 被接受,则设 M n = U n \mathbf{M}_n = \mathbf{U}_n Mn=Un,否则令 M n = M n − 1 \mathbf{M}_n = \mathbf{M}_{n-1} Mn=Mn1。通过 Hastings 构造,如 (2) 和 (3) 式,MALA 链收敛于 π \pi π,其意义是
∥ P M n ( x , ⋅ ) − π ∥ → 0 \left\|P_{\mathrm{M}}^n(\mathbf{x}, \cdot)-\pi\right\| \rightarrow 0 PMn(x,)π0对于几乎所有 π \pi π 上的 x \mathbf{x} x,其中我们写作 P M n ( x , A ) = P ( M n ∈ A ∣ M 0 = x ) P_{\mathrm{M}}^n(\mathbf{x}, A) = P\left(\mathbf{M}_n \in A \mid \mathbf{M}_0 = \mathbf{x}\right) PMn(x,A)=P(MnAM0=x):这遵循于链在 Roberts 和 Tweedie (1996) 中明确为 μ Leb  \mu^{\text {Leb }} μLeb -不可约且非周期性的结果。作为我们结果的一个次要但有用的副产品,我们展示了在几何遍历的情况下,收敛性也适用于所有起始点。

寻找几何速率收敛且适用于每个起始点的条件。

  1. 当 ULA 是瞬态时,MALA 不是指数遍历的;
  2. 在 ULA 不是瞬态的情况下,MALA 通常是几何遍历的,意味着它可以较快地收敛到目标分布。如果目标分布的尾部比指数分布更重(即,目标分布在远离中心的区域衰减得比指数分布更慢),那么这种快速的几何收敛性可能会受到影响。

3. Metropolis 调整的朗之万截断算法(MALTA)

最后,我们简要提到对算法进行的一个简单调整,旨在尝试结合随机游走 Metropolis 算法和“目标”朗之万候选 ULA 的最佳特性。我们称此算法为 MALTA(Metropolis 调整的朗之万截断算法)。这个修订算法涉及用截断候选分布替换第一个 ULA 近似:
T n ∼ N ( M n − 1 + R ( M n − 1 ) , h I k ) \mathbf{T}_n \sim N\left(\mathbf{M}_{n-1}+R\left(\mathbf{M}_{n-1}\right), h I_k\right) TnN(Mn1+R(Mn1),hIk)其中漂移项现在为:
R ( M n ) = D ∇ log ⁡ π ( x ) 2 ( D ∨ ∣ ∇ log ⁡ π ( x ) ∣ ) R\left(\mathbf{M}_n\right)=\frac{D \nabla \log \pi(\mathbf{x})}{2(D \vee|\nabla \log \pi(\mathbf{x})|)} R(Mn)=2(D∣∇logπ(x))Dlogπ(x)其中 D > 0 D > 0 D>0 是某个常数。

然后,调整候选跳跃 T n \mathbf{T}_n Tn 以确保正确的平稳分布成立,如在 (5) 中所示。

使用 MALTA,链具有更加稳健的几何遍历性。我们不对 MALTA 进行详细分析,仅指出本文以及 Roberts 和 Tweedie (1996) 中使用的方法可以很容易地应用于该算法的分析。

;