基于 Metropolis 的朗之万算法
1. 未经调整的朗之万算法
未调整的朗之万算法 (ULA) 是一个离散时间马尔可夫链 U n \mathbf{U}_n Un,它是对普通朗之万扩散 L t \mathbf{L}_t Lt的自然离散化。
任何使用 ∥ P M n ( x , ⋅ ) − π ∥ → 0 \left\|P_{\mathrm{M}}^n(\mathbf{x}, \cdot)-\pi\right\| \rightarrow 0 ∥PMn(x,⋅)−π∥→0的简单算法都可以通过这种方式构造,例如 Parisi (1981) 或 Grenander 和 Miller (1994) 所描述的。
我们将看到,该算法可能具有一些不理想的收敛性质,尽管由于其实现可能比某些更稳健的替代方案需要较少的计算开销,因此它仍可能具有实际价值。
为了形成这个链,给定
U
n
−
1
\mathbf{U}_{n-1}
Un−1,我们只需根据以下公式构造
U
n
\mathbf{U}_n
Un:
N
(
U
n
−
1
+
1
2
∇
log
π
(
U
n
−
1
)
,
h
I
k
)
N\left(\mathbf{U}_{n-1}+\frac{1}{2} \nabla \log \pi\left(\mathbf{U}_{n-1}\right), h I_k\right)
N(Un−1+21∇logπ(Un−1),hIk)正如 Besag (1994) 所指出的,这个链仅能近似维持
π
\pi
π 的不变性:例如,如果
π
\pi
π 本身在
R
\mathbb{R}
R上是
N
(
0
,
1
)
N(0,1)
N(0,1) ,那么当
h
=
2
h=2
h=2 时,我们有
U
n
∼
N
(
0
,
2
)
U_n \sim N(0,2)
Un∼N(0,2) ,这显然表明如果离散化步长
h
h
h 如此粗䊁,那么我们会得到立即"收敛",但却是到一个完全不期望的分布。
ULA 链实际上可能表现得相当糟糕:例如,即使原始扩散是指数遍历的,它可能会收敛但并非几何快速收敛,或者更为惊人的是,它实际上可能是一个瞬态链,尽管 L t \mathbf{L}_t Lt 具有非常良好的不变分布。
2. 基于 Metropolis 的朗之万算法 (MALA)
2.1. MH算法
这些算法首先考虑一个候选转移核,其密度为 q ( x , y ) q(\mathbf{x}, \mathbf{y}) q(x,y),其中 x , y ∈ X \mathbf{x}, \mathbf{y} \in \mathrm{X} x,y∈X,用于生成在 X X X 上演化的离散时间马尔可夫链的潜在转移。在此,我们通常将 X X X 视为 R k \mathbb{R}^k Rk 的子集,并配备了 Borel σ \sigma σ-代数 B \mathscr{B} B,同时 π ( y ) \pi(\mathbf{y}) π(y) 和 q ( x , y ) q(\mathbf{x}, \mathbf{y}) q(x,y) 都是相对于 Lebesgue 测度 μ Leb \mu^{\text {Leb }} μLeb 的密度,尽管更一般的形式化也是可能的。
根据密度
q
(
x
,
⋅
)
q(\mathbf{x}, \cdot)
q(x,⋅) 生成的“候选转移”到
y
\mathbf{y}
y 被接受的概率为
α
(
x
,
y
)
\alpha(\mathbf{x}, \mathbf{y})
α(x,y),其表达式为
(
1
)
α
(
x
,
y
)
=
{
min
{
π
(
y
)
π
(
x
)
q
(
y
,
x
)
q
(
x
,
y
)
,
1
}
π
(
x
)
q
(
x
,
y
)
>
0
1
π
(
x
)
q
(
x
,
y
)
=
0
(1)\quad \alpha(\mathbf{x}, \mathbf{y})= \begin{cases}\min \left\{\frac{\pi(\mathbf{y})}{\pi(\mathbf{x})} \frac{q(\mathbf{y}, \mathbf{x})}{q(\mathbf{x}, \mathbf{y})}, 1\right\} & \pi(\mathbf{x}) q(\mathbf{x}, \mathbf{y})>0 \\ 1 & \pi(\mathbf{x}) q(\mathbf{x}, \mathbf{y})=0\end{cases}
(1)α(x,y)={min{π(x)π(y)q(x,y)q(y,x),1}1π(x)q(x,y)>0π(x)q(x,y)=0因此,Hastings 链的实际转移(我们记作
Φ
n
\Phi_n
Φn)根据转移概率密度的规律
P
P
P 进行,其转移概率密度为
(
2
)
p
(
x
,
y
)
=
q
(
x
,
y
)
α
(
x
,
y
)
,
y
≠
x
(2)\quad p(\mathbf{x}, \mathbf{y})=q(\mathbf{x}, \mathbf{y}) \alpha(\mathbf{x}, \mathbf{y}), \quad \mathbf{y} \neq \mathbf{x}
(2)p(x,y)=q(x,y)α(x,y),y=x且保持在同一点的概率为
(
3
)
r
(
x
)
=
P
(
x
,
{
x
}
)
=
∫
q
(
x
,
y
)
[
1
−
α
(
x
,
y
)
]
d
y
(3)\quad r(\mathbf{x})=P(\mathbf{x},\{\mathbf{x}\})=\int q(\mathbf{x}, \mathbf{y})[1-\alpha(\mathbf{x}, \mathbf{y})] \mathrm{d} \mathbf{y}
(3)r(x)=P(x,{x})=∫q(x,y)[1−α(x,y)]dy通过选择这样的
α
\alpha
α,我们有
π
\pi
π 是不变测度:即满足
π
(
A
)
=
∫
π
(
x
)
P
(
x
,
A
)
d
x
,
x
∈
X
,
A
∈
B
\pi(A) = \int \pi(\mathbf{x}) P(\mathbf{x}, A) \mathrm{d} \mathbf{x}, \mathbf{x} \in \mathrm{X}, A \in \mathscr{B}
π(A)=∫π(x)P(x,A)dx,x∈X,A∈B。
只要链具有适当的不可约性和非周期性,那么标准结果表明,定义为
n
n
n 步转移概率
P
n
(
x
,
A
)
=
P
(
Φ
n
∈
A
∣
Φ
0
=
x
)
P^n(\mathbf{x}, A) = P\left(\Phi_n \in A \mid \Phi_0 = \mathbf{x}\right)
Pn(x,A)=P(Φn∈A∣Φ0=x) 对于每个
n
≥
1
n \geq 1
n≥1 而言,
x
∈
X
,
A
∈
B
\mathbf{x} \in \mathrm{X}, A \in \mathscr{B}
x∈X,A∈B,在全变差范数下收敛于
π
\pi
π:即对于几乎所有
π
\pi
π 上的
x
\mathbf{x}
x,
(
4
)
∥
P
n
(
x
,
⋅
)
−
π
∥
:
=
1
2
sup
A
∈
B
∣
P
n
(
x
,
A
)
−
π
(
A
)
∣
→
0
(4)\quad \left\|P^n(\mathbf{x}, \cdot)-\pi\right\|:=\frac{1}{2} \sup _{A \in \mathscr{B}}\left|P^n(\mathbf{x}, A)-\pi(A)\right| \rightarrow 0
(4)∥Pn(x,⋅)−π∥:=21A∈Bsup∣Pn(x,A)−π(A)∣→0
2.2. 基于 Metropolis 的朗之万算法 (MALA)
根据 Besag (1994) 的建议,我们引入了进一步的修改,并遵循 (1) 和 (2) 式的结构,构造了基于 Metropolis 的朗之万算法 (MALA)。
这是一个 Hastings-Metropolis 链
M
n
\mathbf{M}_n
Mn,它使用 ULA 来构造候选链。因此,在给定
M
n
−
1
\mathbf{M}_{n-1}
Mn−1 的情况下,
U
n
\mathbf{U}_n
Un 首先被设为如下分布的变量:
N
(
M
n
−
1
+
1
2
h
∇
log
π
(
M
n
−
1
)
,
h
I
k
)
N\left(\mathbf{M}_{n-1}+\frac{1}{2} h \nabla \log \pi\left(\mathbf{M}_{n-1}\right), h I_k\right)
N(Mn−1+21h∇logπ(Mn−1),hIk)将此提议密度记为
q
(
M
n
−
1
,
U
n
)
q\left(\mathbf{M}_{n-1}, \mathbf{U}_n\right)
q(Mn−1,Un)。接下来执行接受/拒绝步骤,接受
U
n
\mathbf{U}_n
Un 的概率为
(
5
)
α
(
M
n
−
1
,
U
n
)
=
1
∧
π
(
U
n
)
q
(
U
n
,
M
n
−
1
)
π
(
M
n
−
1
)
q
(
M
n
−
1
,
U
n
)
(5)\quad \alpha\left(\mathbf{M}_{n-1}, \mathbf{U}_n\right)=1 \wedge \frac{\pi\left(\mathbf{U}_n\right) q\left(\mathbf{U}_n, \mathbf{M}_{n-1}\right)}{\pi\left(\mathbf{M}_{n-1}\right) q\left(\mathbf{M}_{n-1}, \mathbf{U}_n\right)}
(5)α(Mn−1,Un)=1∧π(Mn−1)q(Mn−1,Un)π(Un)q(Un,Mn−1)如果
U
n
\mathbf{U}_n
Un 被接受,则设
M
n
=
U
n
\mathbf{M}_n = \mathbf{U}_n
Mn=Un,否则令
M
n
=
M
n
−
1
\mathbf{M}_n = \mathbf{M}_{n-1}
Mn=Mn−1。通过 Hastings 构造,如 (2) 和 (3) 式,MALA 链收敛于
π
\pi
π,其意义是
∥
P
M
n
(
x
,
⋅
)
−
π
∥
→
0
\left\|P_{\mathrm{M}}^n(\mathbf{x}, \cdot)-\pi\right\| \rightarrow 0
∥PMn(x,⋅)−π∥→0对于几乎所有
π
\pi
π 上的
x
\mathbf{x}
x,其中我们写作
P
M
n
(
x
,
A
)
=
P
(
M
n
∈
A
∣
M
0
=
x
)
P_{\mathrm{M}}^n(\mathbf{x}, A) = P\left(\mathbf{M}_n \in A \mid \mathbf{M}_0 = \mathbf{x}\right)
PMn(x,A)=P(Mn∈A∣M0=x):这遵循于链在 Roberts 和 Tweedie (1996) 中明确为
μ
Leb
\mu^{\text {Leb }}
μLeb -不可约且非周期性的结果。作为我们结果的一个次要但有用的副产品,我们展示了在几何遍历的情况下,收敛性也适用于所有起始点。
寻找几何速率收敛且适用于每个起始点的条件。
- 当 ULA 是瞬态时,MALA 不是指数遍历的;
- 在 ULA 不是瞬态的情况下,MALA 通常是几何遍历的,意味着它可以较快地收敛到目标分布。如果目标分布的尾部比指数分布更重(即,目标分布在远离中心的区域衰减得比指数分布更慢),那么这种快速的几何收敛性可能会受到影响。
3. Metropolis 调整的朗之万截断算法(MALTA)
最后,我们简要提到对算法进行的一个简单调整,旨在尝试结合随机游走 Metropolis 算法和“目标”朗之万候选 ULA 的最佳特性。我们称此算法为 MALTA(Metropolis 调整的朗之万截断算法)。这个修订算法涉及用截断候选分布替换第一个 ULA 近似:
T
n
∼
N
(
M
n
−
1
+
R
(
M
n
−
1
)
,
h
I
k
)
\mathbf{T}_n \sim N\left(\mathbf{M}_{n-1}+R\left(\mathbf{M}_{n-1}\right), h I_k\right)
Tn∼N(Mn−1+R(Mn−1),hIk)其中漂移项现在为:
R
(
M
n
)
=
D
∇
log
π
(
x
)
2
(
D
∨
∣
∇
log
π
(
x
)
∣
)
R\left(\mathbf{M}_n\right)=\frac{D \nabla \log \pi(\mathbf{x})}{2(D \vee|\nabla \log \pi(\mathbf{x})|)}
R(Mn)=2(D∨∣∇logπ(x)∣)D∇logπ(x)其中
D
>
0
D > 0
D>0 是某个常数。
然后,调整候选跳跃 T n \mathbf{T}_n Tn 以确保正确的平稳分布成立,如在 (5) 中所示。
使用 MALTA,链具有更加稳健的几何遍历性。我们不对 MALTA 进行详细分析,仅指出本文以及 Roberts 和 Tweedie (1996) 中使用的方法可以很容易地应用于该算法的分析。