参考材料
arXiv:1507.07598v1 [math.OC] 27 Jul 2015
Proximal Distance Algorithms: Theory and Practice Kevin L. Keys Hua Zhou Kenneth Lange
Journal of Machine Learning Research
第一篇
\section*{近端距离算法(Proximal Distance Algorithm)详解}
这篇论文介绍了近端距离算法(Proximal Distance Algorithm,简称PDA),它是一种用于解决包含约束条件的优化问题的算法。该算法基于MM(Majorization-Minimization)原理,即通过使用较简单的代理函数来迭代优化复杂的目标函数。PDA在处理非光滑约束问题(例如线性规划、非负二次规划、矩阵补全等)时非常有效。
\subsection*{1. MM原理(Majorization-Minimization Principle)}
MM原理是构建优化算法的一种工具,通过将难以处理的目标函数 f ( x ) f(x) f(x) 替换为更简单的代理函数 g ( x ∣ x n ) g(x | x_n) g(x∣xn),在每次迭代中优化该代理函数,确保目标函数不断下降。具体地,对于目标函数 f ( x ) f(x) f(x),MM原理使用代理函数 g ( x ∣ x n ) g(x | x_n) g(x∣xn),并满足以下条件:
- 切线条件: g ( x n ∣ x n ) = f ( x n ) g(x_n | x_n) = f(x_n) g(xn∣xn)=f(xn)
- 支配条件: g ( x ∣ x n ) ≥ f ( x ) g(x | x_n) \geq f(x) g(x∣xn)≥f(x),适用于所有 x x x
这种构造确保每次迭代中,新的迭代点 x n + 1 x_{n+1} xn+1 能使目标函数 f ( x ) f(x) f(x) 减小。对于非光滑问题,PDA将此原理应用于多种情形,例如集合投影和近端映射(Proximal Mapping)。
\subsection*{2. 近端距离算法(Proximal Distance Algorithm)}
PDA结合了精确罚函数方法(Exact Penalty Method)和距离支配(Distance Majorization)来创建一种模块化的算法,适用于各种优化问题,特别是那些带有非光滑约束的场景。该算法的核心步骤包括:
- 将约束问题转化为无约束问题,通过在目标函数 f ( y ) f(y) f(y) 上增加一个距离惩罚项 ρ ⋅ dist ( y , S ) \rho \cdot \text{dist}(y, S) ρ⋅dist(y,S),其中 S S S 是约束集, ρ \rho ρ 是惩罚参数。
- 通过近端映射(Proximal Map)和投影运算,将每次迭代中的点投影到约束集 S S S 上。
- 对于非凸集 S S S,采用光滑逼近 dist ϵ ( x , S ) \text{dist}_\epsilon(x, S) distϵ(x,S),使得问题的数值计算更为稳定。
\subsection*{3. 距离支配(Distance Majorization)}
在欧几里得空间上,距离函数 dist ( x , S ) \text{dist}(x, S) dist(x,S) 是一个利普希茨函数,且当 S S S 是凸集时, dist ( x , S ) \text{dist}(x, S) dist(x,S) 也是凸的。PDA利用了这个性质,通过支配函数 ∥ x − P S ( x n ) ∥ \|x - P_S(x_n)\| ∥x−PS(xn)∥ 来支配距离函数 dist ( x , S ) \text{dist}(x, S) dist(x,S),其中 P S ( x n ) P_S(x_n) PS(xn) 是点 x n x_n xn 在集合 S S S 上的投影。
该方法通过以下主要公式构建:
g ( x ∣ x n ) = f ( x ) + w n 2 ∥ x − P S ( x n ) ∥ 2 g(x | x_n) = f(x) + \frac{w_n}{2} \|x - P_S(x_n)\|^2 g(x∣xn)=f(x)+2wn∥x−PS(xn)∥2
其中 w n = ρ ∥ x n − P S ( x n ) ∥ 2 + ϵ w_n = \frac{\rho}{\sqrt{\|x_n - P_S(x_n)\|^2 + \epsilon}} wn=∥xn−PS(xn)∥2+ϵρ 是动态更新的权重,确保目标函数 f ( x ) f(x) f(x) 在每次迭代中下降。
\subsection*{4. 精确罚函数方法(Exact Penalty Method)}
Clarke的精确罚函数方法用于处理非光滑约束。通过增加距离惩罚项,将约束问题转换为无约束问题:
F ρ ( y ) = f ( y ) + ρ ⋅ dist ( y , S ) F_\rho(y) = f(y) + \rho \cdot \text{dist}(y, S) Fρ(y)=f(y)+ρ⋅dist(y,S)
当惩罚参数 ρ \rho ρ 足够大时,该方法可以保证逼近原始约束问题的最优解。
对于多个闭集的交集约束问题,使用如下的综合距离惩罚项:
ϕ S ( y ) = ∑ i = 1 m dist ( y , S i ) 2 \phi_S(y) = \sqrt{\sum_{i=1}^{m} \text{dist}(y, S_i)^2} ϕS(y)=i=1∑mdist(y,Si)2
该公式确保在多个闭集的交集上施加约束,且具有良好的收敛性。
\subsection*{5. 算法的应用}
论文展示了PDA在多个领域中的应用,如:
- 线性规划:通过自适应的障碍函数方法,PDA能够解决线性规划中的约束问题。具体方法使用Bregman主要化(Bregman Majorization),并结合牛顿法的第一步更新。
- 矩阵补全:通过奇异值分解(SVD),PDA将部分观测的矩阵逼近为低秩矩阵。投影操作使用截断的奇异值分解:
P R k ( X ) = ∑ i = 1 k σ i u i v i T P_{R_k}(X) = \sum_{i=1}^{k} \sigma_i u_i v_i^T PRk(X)=i=1∑kσiuiviT
其中 σ i \sigma_i σi 是奇异值, u i u_i ui 和 v i v_i vi 分别是左右奇异向量。
\subsection*{6. 实验结果}
论文通过实验验证了PDA在解决非负二次规划、二元分段线性函数优化、稀疏逆协方差估计等问题中的有效性。对比标准优化软件如CVX和MATLAB的quadprog,PDA在大规模问题上表现出更好的性能。
\section*{结论}
论文表明,PDA是一种灵活且强大的优化算法,特别是在高维和非凸约束问题中表现出色。它的主要优点是能够处理复杂的非光滑约束问题,且易于与现有的优化技术结合。
第二篇
\section*{1. 论文介绍}
本文介绍了结合经典约束优化中的罚函数方法和距离支配技术的优化算法——近端距离算法(Proximal Distance Algorithm,简称PDA)。该算法应用于高维非凸优化问题,尤其是在处理带有约束的优化问题时表现良好。
\section*{2. 基本思想}
近端距离算法的基本思想是,将带有约束集 C C C 的优化问题通过引入惩罚项转化为无约束优化问题。设 f ( x ) f(x) f(x) 是损失函数, C C C 是约束集,则该问题可以表示为:
min x f ( x ) , subject to x ∈ C . \min_{x} f(x), \quad \text{subject to } x \in C. xminf(x),subject to x∈C.
通过引入惩罚项,该问题可以转化为:
min x f ( x ) + ρ 2 dist ( x , C ) 2 , \min_{x} f(x) + \frac{\rho}{2} \text{dist}(x, C)^2, xminf(x)+2ρdist(x,C)2,
其中 dist ( x , C ) \text{dist}(x, C) dist(x,C) 是点 x x x 到集合 C C C 的欧几里得距离, ρ \rho ρ 是罚函数的参数。随着 ρ \rho ρ 增大,解将逐渐逼近约束集上的最优解。
\section*{3. 近端映射(Proximal Mapping)}
在每次迭代中,近端映射被用来更新当前的解。近端映射定义为:
prox f ( y ) = arg min x ( f ( x ) + 1 2 ∥ x − y ∥ 2 ) , \text{prox}_f(y) = \arg\min_x \left( f(x) + \frac{1}{2} \|x - y\|^2 \right), proxf(y)=argxmin(f(x)+21∥x−y∥2),
其中 ∥ ⋅ ∥ \| \cdot \| ∥⋅∥ 是欧几里得范数。
在PDA中,近端映射通过结合投影操作来实现。在每次迭代中,当前解 x k x_k xk 被投影到约束集 C C C 上,表示为 P C ( x k ) P_C(x_k) PC(xk),然后通过以下公式更新解:
x k + 1 = prox ρ − 1 f ( P C ( x k ) ) . x_{k+1} = \text{prox}_{\rho^{-1} f}(P_C(x_k)). xk+1=proxρ−1f(PC(xk)).
\section*{4. 罚函数方法(Penalty Method)}
近端距离算法使用经典的罚函数方法,将带有约束的优化问题转化为无约束问题。罚函数的形式为:
F ρ ( x ) = f ( x ) + ρ 2 dist ( x , C ) 2 . F_\rho(x) = f(x) + \frac{\rho}{2} \text{dist}(x, C)^2. Fρ(x)=f(x)+2ρdist(x,C)2.
该罚函数会随着 ρ \rho ρ 的增大而逼近最优解。在每次迭代中,使用距离惩罚项将解投影到约束集 C C C 上。
\section*{5. 距离支配(Distance Majorization)}
在欧几里得空间中,距离函数 dist ( x , C ) \text{dist}(x, C) dist(x,C) 是一个利普希茨函数,且当 C C C 为凸集时,距离函数是凸的。PDA 利用了这一特性,通过支配函数近似距离函数。具体来说,支配函数为:
∥ x − P C ( x k ) ∥ , \|x - P_C(x_k)\|, ∥x−PC(xk)∥,
其中 P C ( x k ) P_C(x_k) PC(xk) 是当前迭代点 x k x_k xk 在集合 C C C 上的投影。
该支配函数代替了距离惩罚项 dist ( x , C ) 2 \text{dist}(x, C)^2 dist(x,C)2,并通过以下代理函数进行迭代:
g ( x ∣ x k ) = f ( x ) + ρ 2 ∥ x − P C ( x k ) ∥ 2 . g(x | x_k) = f(x) + \frac{\rho}{2} \|x - P_C(x_k)\|^2. g(x∣xk)=f(x)+2ρ∥x−PC(xk)∥2.
在每次迭代中,通过最小化该代理函数来更新解。
\section*{6. 主要迭代更新公式}
结合近端映射和投影算子,PDA的主要迭代公式为:
x k + 1 = prox ρ − 1 f ( P C ( x k ) ) . x_{k+1} = \text{prox}_{\rho^{-1} f}(P_C(x_k)). xk+1=proxρ−1f(PC(xk)).
对于每次迭代,罚函数的形式为:
f ( x ) + ρ 2 dist ( x , C ) 2 . f(x) + \frac{\rho}{2} \text{dist}(x, C)^2. f(x)+2ρdist(x,C)2.
在非凸优化问题中,通过以下更新公式来确保算法的收敛性:
x k + 1 = prox ρ − 1 f [ x k − ∇ q ( x k ) ] . x_{k+1} = \text{prox}_{\rho^{-1} f}[x_k - \nabla q(x_k)]. xk+1=proxρ−1f[xk−∇q(xk)].
其中 ∇ q ( x k ) \nabla q(x_k) ∇q(xk) 是关于距离惩罚项的梯度。
\section*{7. 应用示例}
PDA在以下场景中具有广泛的应用:
- 线性规划(Linear Programming):通过投影到线性约束集上,更新解的迭代过程。
- 稀疏主成分分析(Sparse PCA):通过投影到稀疏约束集上,进行主成分的提取。
- 二阶锥约束问题(Second-Order Cone Programming):在二阶锥约束问题中,利用近端映射和距离支配更新解。
\section*{8. 总结}
本文提出的近端距离算法(PDA)通过引入距离惩罚项,结合近端映射和投影操作,实现了对带有约束的优化问题的有效求解。该算法特别适用于高维和非凸问题,在多个实际问题中的应用中表现出色。尽管每次迭代的计算简单,PDA在处理复杂优化问题时表现出很强的竞争力。
应用
\documentclass{article}
\usepackage{amsmath, amssymb}
\begin{document}
\title{Proximal Distance Algorithm 推导过程}
\author{}
\date{}
\maketitle
\section*{1. 原始问题的非凸性}
在论文中,目标是最大化多用户隐蔽通信系统的总速率,该问题是非凸的,尤其是因为:
\begin{itemize}
\item \textbf{目标函数的非凸性}:速率最大化公式
log
2
(
1
+
γ
k
)
\log_2(1 + \gamma_k)
log2(1+γk) 涉及用户的 SINR(信干噪比),而 SINR 的形式为:
γ
k
=
∣
h
k
H
(
T
)
w
k
∣
2
∑
i
≠
k
∣
h
k
H
(
T
)
w
i
∣
2
+
σ
2
\gamma_k = \frac{|h_k^H(T)w_k|^2}{\sum_{i \neq k} |h_k^H(T)w_i|^2 + \sigma^2}
γk=∑i=k∣hkH(T)wi∣2+σ2∣hkH(T)wk∣2
由于信道和波束成形向量之间的非线性关系,导致该优化问题是非凸的。
\item \textbf{天线位置优化的非凸性}:天线位置的优化涉及移动天线与多用户信道之间的复杂几何关系,这种空间上的优化也是非凸的。
\end{itemize}
因此,直接求解该问题困难,PDA 提供了一个有效的方法来处理这些非凸性。
\section*{2. PDA 推导过程}
PDA 的基本思想是通过引入惩罚函数和距离支配技术,将非凸问题转化为可迭代求解的优化问题。具体步骤如下:
\subsection*{2.1 目标函数的重构}
给定一个非凸优化问题:
min
f
(
x
)
,
subject to
x
∈
S
\min f(x), \quad \text{subject to } x \in S
minf(x),subject to x∈S
我们引入一个惩罚项,将约束优化问题转化为无约束问题:
F
ρ
(
x
)
=
f
(
x
)
+
ρ
2
⋅
dist
(
x
,
S
)
2
F_\rho(x) = f(x) + \frac{\rho}{2} \cdot \text{dist}(x, S)^2
Fρ(x)=f(x)+2ρ⋅dist(x,S)2
其中,
ρ
\rho
ρ 是惩罚参数,
dist
(
x
,
S
)
\text{dist}(x, S)
dist(x,S) 是点
x
x
x 到约束集
S
S
S 的欧几里得距离。
\subsection*{2.2 距离支配与代理函数}
为了使问题更易处理,我们使用距离支配(Distance Majorization)的技术。在欧几里得空间中,距离函数
dist
(
x
,
S
)
\text{dist}(x, S)
dist(x,S) 是利普希茨连续的。当约束集
S
S
S 为凸时,距离函数是凸的。PDA 通过以下代理函数来支配距离函数:
g
(
x
∣
x
n
)
=
f
(
x
)
+
w
n
2
⋅
∥
x
−
P
S
(
x
n
)
∥
2
g(x | x_n) = f(x) + \frac{w_n}{2} \cdot \|x - P_S(x_n)\|^2
g(x∣xn)=f(x)+2wn⋅∥x−PS(xn)∥2
其中,
P
S
(
x
n
)
P_S(x_n)
PS(xn) 是点
x
n
x_n
xn 在集合
S
S
S 上的投影,
w
n
=
ρ
∥
x
n
−
P
S
(
x
n
)
∥
2
+
ϵ
w_n = \frac{\rho}{\sqrt{\|x_n - P_S(x_n)\|^2 + \epsilon}}
wn=∥xn−PS(xn)∥2+ϵρ 是动态权重,
ϵ
\epsilon
ϵ 是一个小的正数,用于数值稳定性。
\subsection*{2.3 迭代更新公式}
通过迭代更新式来最小化
g
(
x
∣
x
n
)
g(x | x_n)
g(x∣xn),PDA 通过以下公式进行更新:
x
n
+
1
=
prox
ρ
−
1
f
(
P
S
(
x
n
)
)
x_{n+1} = \text{prox}_{\rho^{-1} f}(P_S(x_n))
xn+1=proxρ−1f(PS(xn))
这里的 prox ρ − 1 f \text{prox}_{\rho^{-1} f} proxρ−1f 是近端映射(Proximal Mapping),其作用是平滑地逼近目标函数。
\subsection*{2.4 逐步求解非凸问题}
PDA 的核心思想是每次迭代中,逐步逼近非凸问题的解,并通过距离惩罚项控制解向约束集的收敛。这种方法的优势在于,即使原始问题是非凸的,通过引入适当的惩罚项,PDA 可以将问题分解为多个更简单的子问题,每个子问题具有较好的收敛性。
\section*{3. 凸性的变化}
在 PDA 推导过程中,问题的凸性会随着不同的步骤而发生变化:
\begin{itemize}
\item \textbf{初始问题的非凸性}:原始问题是非凸的,包括速率最大化目标函数以及天线位置优化问题。
\item \textbf{引入惩罚项后的处理}:通过引入距离惩罚项
ρ
2
⋅
dist
(
x
,
S
)
2
\frac{\rho}{2} \cdot \text{dist}(x, S)^2
2ρ⋅dist(x,S)2,问题被转化为一种新的形式。虽然原始问题的非凸性依然存在,但通过迭代方法中的距离控制,优化的每一步逐渐将解约束到更小的范围内,逼近一个局部最优解。
\item \textbf{使用距离支配的凸化}:在每次迭代过程中,通过代理函数
g
(
x
∣
x
n
)
g(x | x_n)
g(x∣xn),PDA 实际上将复杂的非凸问题转化为了一个局部凸化的子问题。每个子问题相对简单,可以通过标准的凸优化方法求解。最终的迭代更新逐渐逼近全局问题的局部最优解。
\end{itemize}
\section*{4. 结合论文中的问题}
论文中的 PDA 推导过程涉及多用户的波束成形优化和天线位置优化,主要分为以下两部分:
\begin{itemize}
\item \textbf{波束成形优化}:通过 PDA 处理波束成形向量的优化问题,利用近端映射来迭代更新发射波束。这里的目标函数包括了用户之间的干扰项和隐蔽通信的总速率约束。
\item \textbf{天线位置优化}:使用逐步优化的方法来调整天线的位置。该问题涉及几何关系,通过 SCA(顺序凸近似)方法将非凸的天线位置优化转化为局部凸问题,进一步结合 PDA 来处理这些子问题。
\end{itemize}
\section*{5. PDA 收敛性与性能}
PDA 方法具有以下优点:
\begin{itemize}
\item \textbf{处理非凸问题的能力}:通过逐步将非凸问题转化为多个凸子问题,PDA 能够有效处理高维复杂优化问题。
\item \textbf{迭代收敛性}:尽管原始问题是非凸的,PDA 可以保证在每次迭代中收敛到一个局部最优解。该方法通过引入惩罚项和动态权重调整,逐步缩小解的搜索空间。
\end{itemize}
\section*{总结}
Proximal Distance Algorithm 是处理非凸优化问题的一个强有力工具,特别是在论文中的隐蔽通信系统中,通过联合波束成形和天线位置优化来提高总速率。通过引入惩罚项和距离控制,PDA 将复杂的非凸问题分解为多个更易处理的局部凸问题,从而实现有效的迭代求解。
\end{document}