SMO算法-核方法支持向量机

我们现在的问题是要优化目标函数，同时求出参数向量 $\alpha$
$P=\underbrace{ min }_{\alpha} \frac{1}{2}\sum\limits_{i=1,j=1}^{m}\alpha_i\alpha_jy_iy_jK(x_i,x_j) - \sum\limits_{i=1}^{m}\alpha_i\\ s.t. \; \sum\limits_{i=1}^{m}\alpha_iy_i = 0\\ 0 \leq \alpha_i \leq C$
因为现在的问题是原来的对偶问题化简而来的所以 $\alpha$ 还应该满足对偶互补条件 $\alpha_{i}(y_i(w^Tx_i + b) - 1 + \xi_i^{*}) = 0$

根据 $\alpha$ 的取值范围和对偶互补条件我们可以分析出 $\alpha$ 的情况：
$\alpha_{i} = 0 \Rightarrow y_i(w \bullet \phi(x_i) + b) \geq 1\\ 0 <\alpha_{i}< C \Rightarrow y_i(w \bullet \phi(x_i) + b) = 1\\ \alpha_{i}= C \Rightarrow y_i(w \bullet \phi(x_i) + b) \leq 1$
为了方面表示我们做出一些字符替换：
$w\bullet \phi(x) + b =\sum\limits_{j=1}^{m}\alpha_jy_jK(x, x_j)+ b \\ K_{ij} = \phi(x_i) \bullet \phi(x_j) \\ E_i = g(x_i)-y_i = \sum\limits_{j=1}^{m}\alpha_jy_jK(x_i, x_j)+ b - y_i$

2.3.2.1 思路

我们的目标是求出m个 $\alpha_i$ 的值，如果同时去优化很难去得出结果，所以SMO选择和坐标下降算法类似的思路，选择两个参数先进行优化，将其他参数暂时看为常数，这样就能将问题简化为两变量的优化问题。我们假设除了 $\alpha_1,\alpha_2$ 外的都是常数我们可以得到约束条件：
$\alpha_1y_1+ \alpha_2y_2+\sum_{i=3}^m \alpha_iy_i =0\\ \alpha_1y_1+ \alpha_2y_2=-\sum_{i=3}^m \alpha_iy_i \\ Set \quad \varsigma=-\sum_{i=3}^m \alpha_iy_i \\ \therefore \alpha_1y_1+ \alpha_2y_2=\varsigma$
同时我们从原问题P中将有 $\alpha_1,\alpha_2$ 的项提取出来：
$P=\underbrace{ min }_{\alpha} \frac{1}{2}\sum\limits_{i=1,j=1}^{m}\alpha_i\alpha_jy_iy_jK_{ij} - \sum\limits_{i=1}^{m}\alpha_i\\ =\underbrace{ min }_{\alpha} \frac{1}{2}[\alpha_1^2K_{11}+\alpha_2^2K_{22}+2\alpha_1\alpha_2y_1y_2K_{12}+y_1\alpha_1\sum\limits_{i=3}^{m}y_i\alpha_iK_{i1} + y_2\alpha_2\sum\limits_{i=3}^{m}y_i\alpha_iK_{i2}] -\alpha_1-\alpha_2-\sum_{i=3}^m \alpha_i\\ =\;\underbrace{ min }_{\alpha_1, \alpha_1} \frac{1}{2}K_{11}\alpha_1^2 + \frac{1}{2}K_{22}\alpha_2^2 +y_1y_2K_{12}\alpha_1 \alpha_2 -(\alpha_1 + \alpha_2) +y_1\alpha_1\sum\limits_{i=3}^{m}y_i\alpha_iK_{i1} + y_2\alpha_2\sum\limits_{i=3}^{m}y_i\alpha_iK_{i2}$
接下来我们就是要求解这个二元优化问题：

首先我们要讨论 $\alpha_1,\alpha_2$ 的范围， $\alpha_1和\alpha_2$ 是二元线性关系$ \alpha_1y_1+ \alpha_2y_2=\varsigma $，并且$ \alpha$的取值范围为 $\leq \alpha_i \leq C$ ，同时y只取{+1和-1}，其实我们可以将线性关系分为四种情况去讨论：
$:y_1==y_2\\ \alpha_1 +\alpha_2=k \quad k>0 \quad or \quad k <0 \\IF :y_1!=y_2 \\ \alpha_1 -\alpha_2=k \quad k>0 \quad or \quad k <0$
放到坐标系中如图所示：

由于 $α_1,α_2$ 的关系被限制在盒子里的一条线段上，所以两变量的优化问题实际上仅仅是一个变量的优化问题，我们可以直接视为是对变量 $\alpha_2$ 的优化。

为了求出 $\alpha_2$ 的值，我们应该先求出 $\alpha_2$ 的定义域，我们假设 $\alpha_2$ 的左边界为L右边界为H。由于 $α_1,α_2$ 的取值其实是线上的动点问题，所以我们先研究 $\alpha_2^{new}$ 边界的取值。

对于左图来说L和H的取值范围是：
$\alpha_2^{old}-\alpha_1^{old}) \;\;\;H = min(C, C+\alpha_2^{old}-\alpha_1^{old})$
推导：
$\because \alpha_1 = \alpha_2 +k\\ 又\because 0\leq \alpha_1 \leq C \\\therefore 0\leq \alpha_2 +k \leq C \\ \because \alpha_2 +k \geq 0 且 \alpha_2 \geq 0 \\ \therefore \alpha_2 \geq max\{ -k,0\}=max\{ \alpha_2^{old} - \alpha_1^{old},0\} \\ \because \alpha_2 \leq C-k且 \alpha_2 \leq C \\ \therefore \alpha_2 \leq min\{C,C-K\} \\ \therefore L = max(0, \alpha_2^{old}-\alpha_1^{old}) \;\;\;H = min(C, C+\alpha_2^{old}-\alpha_1^{old})$
对于右图来说，推导同理：
$\alpha_2^{old}+\alpha_1^{old}-C) \;\;\; H = min(C, \alpha_2^{old}+\alpha_1^{old})$
我们得到最终 $\alpha_2$ 的取值函数：
$\alpha_2^{new}= \begin{cases} H& { \alpha_2^{new,unc} > H}\\ \alpha_2^{new,unc}& {L \leq \alpha_2^{new,unc} \leq H}\\ L& {\alpha_2^{new,unc} < L} \end{cases}$
进一步我们优化函数为：
$W(\alpha_1,\alpha_2) = \frac{1}{2}K_{11}\alpha_1^2 + \frac{1}{2}K_{22}\alpha_2^2 +y_1y_2K_{12}\alpha_1 \alpha_2 -(\alpha_1 + \alpha_2) +y_1\alpha_1v_1 + y_2\alpha_2v_2$
代入 $\alpha_1 = y_1(\varsigma - \alpha_2y_2)$ ，消去 $\alpha_1$

最终我们得到纯 $\alpha_2$ 的函数：
$W(\alpha_2) = \frac{1}{2}K_{11}(\varsigma - \alpha_2y_2)^2 + \frac{1}{2}K_{22}\alpha_2^2 +y_2K_{12}(\varsigma - \alpha_2y_2) \alpha_2 - (\varsigma - \alpha_2y_2)y_1 - \alpha_2 +(\varsigma - \alpha_2y_2)v_1 + y_2\alpha_2v_2$
对 $\alpha_2$ 求导为0得到 $\alpha_2^{new,unc}$ :
$\alpha_2^{new,unc} = \alpha_2^{old} + \frac{y_2(E_1-E_2)}{K_{11} +K_{22}-2K_{12})}$
然后将 $\alpha_2^{new,unc}$ 代入取值函数则可得到最终的 $\alpha_2^{new}$ ，同时根据 $\alpha_1和\alpha_2$ 的线性关系: $\alpha_1y_1+ \alpha_2y_2=\varsigma$ 可以求出 $\alpha_1$

2.3.2.2 如何选择变量

一、第一个变量选择违反KKT条件最严重的点：

KKT条件为：
$\alpha_{i} = 0 \Rightarrow y_ig(x_i) \geq 1 \\0 < \alpha_{i} < C \Rightarrow y_ig(x_i) =1 \\\alpha_{i}= C \Rightarrow y_ig(x_i) \leq 1$
我们一般会选择违反 $\alpha_{i}^{*} < C \Rightarrow y_ig(x_i) =1$ 这个条件的点，这是因为：对于 $\alpha_i =0$ 则意味着分类正确，这个点对于超平面的调整无效。对于 $\alpha_{i}= C$ 的点则代表点可能在错误间隔或者分类错误，对于这种情况其实无论怎么调整参数都无法优化超平面。

对于违反$0 < \alpha_{i} < C $的点，此时意味着$ \alpha_i >C \quad OR\quad \alpha_i <0$，我们很清楚 $\leq \alpha_{i} \leq C$ ，正常情况下不应该出现这种情况，进而说明KKT条件被违反，优化这些点能够更有效的让超平面向符合KKT条件的方向靠拢。

二、第二个变量选择 $E_1-E_2\vert$ 足够大的点：

$E_i =f(x_i)-y_i$ 代表预测值和真实值之间的误差，我们先选择好 $\alpha_1$ 计算出 $E_1$ ，然后再在剩下的点中算出所有的 $E_i$ ，对比这些 $E_1 -E_i$ ，较大的误差差说明模型在这两个点附近的差异更大，调整 $\alpha$ 可以让模型更有效的向正确的分类移动，进而加速收敛速度

$E_1-E_i$ 较大时，可以使得分类超平面向调整幅度大的方向走。

三、更新 $E_i$ 和b
$\because y_1 - \sum\limits_{i=1}^{m}\alpha_iy_iK_{i1} -b_1 = 0\\ \therefore b_1^{new} = y_1 - \sum\limits_{i=3}^{m}\alpha_iy_iK_{i1} - \alpha_{1}^{new}y_1K_{11} - \alpha_{2}^{new}y_2K_{21}\\ \therefore E_1 = g(x_1) - y_1 = \sum\limits_{i=3}^{m}\alpha_iy_iK_{i1} + \alpha_{1}^{old}y_1K_{11} + \alpha_{2}^{old}y_2K_{21} + b^{old} -y_1 \\ 联立两式\\ b_1^{new} = -E_1 -y_1K_{11}(\alpha_{1}^{new} - \alpha_{1}^{old}) -y_2K_{21}(\alpha_{2}^{new} - \alpha_{2}^{old}) + b^{old}\\ 同理:\\ b_2^{new} = -E_2 -y_1K_{12}(\alpha_{1}^{new} - \alpha_{1}^{old}) -y_2K_{22}(\alpha_{2}^{new} - \alpha_{2}^{old}) + b^{old} \\ \therefore b^{new} = \frac{b_1^{new} + b_2^{new}}{2}\\ 更新:E_i = \sum\limits_{S}y_j\alpha_jK(x_i,x_j) + b^{new} -y_i$

2.3.2.2 算法

输入是m个样本( $ x_ {1} $ , $ y_ {1} $ ),( $ x_ {2} $ , $ y_ {2} $ ), $ \cdots $ ,( $ x_ {m} $ , $ y_ {m} $ ),其中x为n维特征向量。y为二元输出,值为1,或者-1

输出是近似解 $ \alpha $

取初值 $ \alpha ^ {0} $ =0,k=0
选出 $\alpha_1和\alpha_2$
求出 $\alpha _ {2}^ {new,unc}$ $=\alpha _ {2}^ {old}$ + $\frac {y_ {2}(E_ {1}-E_ {2})}{K_ {11}+K_ {22}-2K_ {12}}$
求出 $\alpha_2^{new}= \begin{cases} H& { \alpha_2^{new,unc} > H}\\ \alpha_2^{new,unc}& {L \leq \alpha_2^{new,unc} \leq H}\\ L& {\alpha_2^{new,unc} < L} \end{cases}$
利用 $\alpha _ {2}^ {new}$ 和 $\alpha _ {1}^ {new}$ 的关系求出 $\alpha _ {1}^ {new}$
计算 $b^ {k+1}$ 和 $E_ {i}$
检查是否满足如下的终止条件KKT:
$\sum\limits_{i=1}^{m}\alpha_iy_i = 0\\ 0 \leq \alpha_i \leq C, i =1,2...m\\ \alpha_{i} = 0 \Rightarrow y_ig(x_i) \geq 1 \\ 0 <\alpha_{i}< C \Rightarrow y_ig(x_i) = 1$
如果满足则结束,返回 $\alpha$ ,否则转到步骤2)。