[机器学习 - 周志华] - 第六章支持向量机

间隔与支持间隔

分类学习的最基本想法就是基于训练集D在样本空间中找到一个划分超平面，将不同类别的样本分开。
能将训练样本划分开的平面可能有很多个，选择位于两类训练样本正中间的划分超平面，原因是这个超平面的分类结果最鲁棒，泛化能力最强。
在样本空间中，划分超平面可通过以下线性方程来描述
$ω T x + b = 0$ $\omega^T x + b = 0$
样本空间中任意点 $x$ 到超平面 $(w,b)$ 的距离可以写成
$r = | ω T x + b | | | ω | |$ $r = \frac{\vert \omega^T x + b \vert}{\vert \vert \omega \vert \vert}$
假设超平面能够正确分类样本，则可以通过对 $\omega$ 缩放可以使得下式成立
${ω T x i + b \geq + 1, ω T x i + b \leq - 1, y i = + 1 y i = - 1$ $\left\{ \begin{aligned} \omega^T x_i + b \geq +1, & y_i = +1 \\ \omega^T x_i + b \leq -1, & y_i = -1\\ \end{aligned} \right.$
距离超平面最近的几个样本点使得上式等号成立，称作“支持向量”。两个异类支持向量到超平面的距离之和称为“间隔”， $\gamma = \frac{2}{\vert \vert \omega \vert \vert}$ 。
欲最大化间隔，等价于最小化 $\vert \vert \omega \vert \vert^2$ , 这就是支持向量机的基本型。
$min ω, b s . t . 1 2 | | ω | | 2 y i (ω T x i + b) \geq 1, i = 1, \dots, m$ $\begin{split} \min{}_{\omega,b} &\frac{1}{2}\vert \vert \omega \vert \vert^2\\ s.t. & y_i (\omega^Tx_i + b) \geq 1,i=1,\cdots,m \end{split}$

对偶问题

上述问题是一个凸二次规划问题，能直接用现成的优化计算包求解。但是通过拉格朗日乘子法变换到对偶变量的优化问题之后，可以找到一种更加有效的方法来进行求解。
原问题的拉格朗日函数为
$L (ω, b, α) = 1 2 | | ω | | 2 + \sum i = 1 m α i (1 - y i (ω T x i + b))$ $L(\omega,b,\alpha) = \frac{1}{2} \vert \vert \omega \vert \vert^2 + \sum\limits_{i=1}^{m} \alpha_i (1 - y_i (\omega^T x_i + b))$
求偏导为零可以得到
$ω = \sum i = 1 m α i y i x i 0 = \sum i = 1 m α i y i$ $\begin{aligned} & \omega = \sum\limits_{i=1}^{m} \alpha_i y_i x_i \\ & 0 = \sum\limits_{i=1}^{m} \alpha_i y_i \\ \end{aligned}$
对偶问题为
$max α s . t . \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x T i x j \sum i = 1 m α i y i = 0 α i \geq 0, i = 1, \dots, m$ $\begin{aligned} \max{}_{\alpha} &\sum\limits_{i=1}^{m} \alpha_i - \frac{1}{2} \sum\limits_{i=1}^{m} \sum\limits_{j=1}^{m} \alpha_i \alpha_j y_i y_j x_i^T x_j\\ s.t. & \sum\limits_{i=1}^{m} \alpha_i y_i = 0 \\ & \alpha_i \geq 0, i=1,\cdots,m \end{aligned}$
于是可以得到模型为
$f (x) = ω T x + b = \sum i = 1 m α i y i x T i x + b$ $\begin{aligned} f(x) &= \omega^T x + b \\ &= \sum\limits_{i=1}^{m} \alpha_i y_i x_i^T x + b \end{aligned}$
上述过程需要满足KKT(Karush-Kuhn-Tucker)条件，即
$⎧ ⎩ ⎨ ⎪ ⎪ α i \geq 0 y i f (x i) - 1 \geq 0 α i (y i f (x i) - 1) = 0$ $\left\{ \begin{aligned} & \alpha_i \geq 0 \\ & y_if(x_i) - 1 \geq 0 \\ & \alpha_i (y_if(x_i) - 1) = 0 \end{aligned} \right.$
对任意训练样本 $(x_i,y_i)$ ，总有 $α_i=0$ 或 $y_i f(x_i) = 1$ 。因此训练完成后，大部分的样本都不需要保留，最终模型仅与支持向量有关。
如果用二次规划算法求解对偶问题，则问题的规模正比于训练样本数，这会在实际任务中造成很大开销，为此提出SMO(Sequential Minimal Optimization)算法。

SMO算法

步骤：不断执行以下两个步骤直到收敛
1. 选取一对需要更新的变量 $\alpha_i$ 和 $\alpha_j$
2. 固定 $\alpha_i$ 和 $\alpha_j$ 以外的参数，求解对偶问题更新后的 $\alpha_i$ 和 $\alpha_j$
只要选取的 $α_i$ 和 $α_j$ 中有一个不满足KKT条件，目标函数就会在迭代后减小。KKT条件违背的程度越大，变量更新后可能导致的目标函数值减幅越大。
使选取的两变量所对应样本之间的间隔最大（两个变量有很大的差别，对它们进行更新会带给目标函数值更大的变化）。

核函数

原始样本空间线性不可分：将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分。如果原始空间是有限维，那么一定存在一个高维特征空间使样本可分。
模型变成： $\omega^T \phi(x) + b = 0$
$min ω, b s . t . 1 2 | | ω | | 2 y i (ω T ϕ (x i) + b) \geq 1, i = 1, \dots, m$ $\begin{split} \min{}_{\omega,b} &\frac{1}{2}\vert \vert \omega \vert \vert^2\\ s.t. & y_i (\omega^T \phi(x_i) + b) \geq 1,i=1,\cdots,m \end{split}$
对偶问题为
$max α s . t . \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j ϕ (x i) T ϕ (x j) \sum i = 1 m α i y i = 0 α i \geq 0, i = 1, \dots, m$ $\begin{aligned} \max{}_{\alpha} &\sum\limits_{i=1}^{m} \alpha_i - \frac{1}{2} \sum\limits_{i=1}^{m} \sum\limits_{j=1}^{m} \alpha_i \alpha_j y_i y_j \phi(x_i)^T \phi(x_j)\\ s.t. & \sum\limits_{i=1}^{m} \alpha_i y_i = 0 \\ & \alpha_i \geq 0, i=1,\cdots,m \end{aligned}$
由于特征空间维数可能很高，直接计算 $\phi(x_i )^T \phi(x_j)$ 通常是困难的。设想函数 $k(x_i,x_j) = \phi(x_i)^T \phi(x_j)$ , $x_i$ 与 $x_j$ 在特征空间的内积等于它们在原始样本空间中通过核函数计算的结果。
核函数选择成为支持向量机的最大变数，若核函数选择不合适，则意味着将样本映射到了一个不合适的特征空间，很可能导致性能不佳。
常用核函数：
1. 线性核 $k(x_i,x_j) = x_i^T x_j$
2. 多项式核 $k(x_i,x_j) = （x_i^T x_j）^d$
3. 高斯核 $k(x_i,x_j) = exp（-\frac{\vert \vert x_i - x_j \vert \vert ^2}{2\delta^2}）$
4. 拉普拉斯核 $k(x_i,x_j) = exp（-\frac{\vert \vert x_i - x_j \vert \vert}{\delta}）$
5. Sigmod核 $k(x_i,x_j) = tanh(\beta x_i^T x_j + \theta)$

软间隔与正则化

现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分，即便线性可分，也很难判定这个结果不是由于过拟合造成的。
缓解这个问题的一个方法是允许支持向量机在一些样本上出错，引入“软间隔”概念。允许某些样本不满足约束 $y_i (\omega^T x_i + b) \geq 1$
优化目标可写成
$min ω, b 1 2 | | ω | | 2 + C \sum i = 1 m l 0 / 1 (y i (ω T x i + b) - 1)$ $\min{}_{\omega,b} \frac{1}{2} \vert \vert \omega \vert \vert^2 + C\sum\limits_{i=1}^{m} l_{0/1} (y_i (\omega^T x_i + b) - 1)$
其中 $l_{0/1}$ 是“0/1损失函数”
$l 0 / 1 = {10 z \leq 0 o t h e r w i s e$ $l_{0/1} = \left\{ \begin{aligned} & 1 & z \leq 0 \\ & 0 & otherwise \end{aligned} \right.$
$l_{0/1}$ 非凸、非连续、数学性质不好，使得上式难以求解，因此人们用其他一些函数来代替它，称为“代替函数”。
常用的代替函数：
1. hinge损失： $l_{hinge}(z) = max(0,1-z)$
2. 指数损失： $l_{exp}(z) = exp(-z)$
3. 对率损失： $l_{log}(z) = log(1+exp(-z))$
常用的软间隔支持向量机：
$min ω, b s . t . 1 2 | | ω | | 2 + C \sum i = 1 m ξ i y i (ω T x i + b) \geq 1 - ξ i ξ i \geq 0, i = 1, \dots, m$ $\begin{aligned} \min{}_{\omega,b} &\frac{1}{2} \vert \vert \omega \vert \vert^2 + C\sum\limits_{i=1}^{m} \xi_i\\ s.t. & y_i (\omega^T x_i + b) \geq 1 - \xi_i \\ & \xi_i \geq 0,i=1,\cdots,m \end{aligned}$
与硬间隔支持向量机相似，软间隔支持向量机也是一个二次规划问题，可以通过拉格朗日乘子法得到拉格朗日函数：
$L (ω, b, α) = 1 2 | | ω | | 2 + C \sum i = 1 m ξ i + \sum i = 1 m α i (1 - ξ i - y i (ω T x i + b)) - \sum i = 1 m μ i ξ i$ $L(\omega,b,\alpha) = \frac{1}{2} \vert \vert \omega \vert \vert^2 + C \sum\limits_{i=1}^{m} \xi_i + \sum\limits_{i=1}^{m} \alpha_i (1 - \xi_i - y_i (\omega^T x_i + b)) - \sum\limits_{i=1}^{m} \mu_i \xi_i$
求偏导为零可以得到
$ω = \sum i = 1 m α i y i x i 0 = \sum i = 1 m α i y i C = α i + μ i$ $\begin{aligned} & \omega = \sum\limits_{i=1}^{m} \alpha_i y_i x_i \\ & 0 = \sum\limits_{i=1}^{m} \alpha_i y_i \\ & C = \alpha_i + \mu_i \\ \end{aligned}$
对偶问题为
$max α s . t . \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x T i x j \sum i = 1 m α i y i = 0 0 \leq α i \leq C, i = 1, \dots, m$ $\begin{aligned} \max{}_{\alpha} &\sum\limits_{i=1}^{m} \alpha_i - \frac{1}{2} \sum\limits_{i=1}^{m} \sum\limits_{j=1}^{m} \alpha_i \alpha_j y_i y_j x_i^T x_j\\ s.t. & \sum\limits_{i=1}^{m} \alpha_i y_i = 0 \\ & 0 \leq \alpha_i \leq C, i=1,\cdots,m \end{aligned}$
上述过程需要满足KKT(Karush-Kuhn-Tucker)条件，即
$⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ α i \geq 0 μ i \geq 0 y i f (x i) - 1 + ξ i \geq 0 α i (y i f (x i) - 1 + ξ i) = 0 ξ i \geq 0 μ i ξ i = 0$ $\left\{ \begin{aligned} & \alpha_i \geq 0 \\ & \mu_i \geq 0 \\ & y_if(x_i) - 1 + \xi_i \geq 0 \\ & \alpha_i (y_if(x_i) - 1 + \xi_i) = 0 \\ & \xi_i \geq 0 \\ & \mu_i \xi_i = 0 \end{aligned} \right.$
实际上支持向量机和对率回归的优化目标相近，通常情况下他们的性能相当。对率回归的优势主要对于其输出具有自然的概率意义，即在给出预测标记的同时也给了概率，而支持向量机的输出不具有概率意义，欲得到概率需要进行特殊处理；此外，对率回归能够直接用于多分类任务，支持向量机为此需要进行推广。另一方面，可以看出hinge损失函数有一块平摊的零区域，这使得支持向量机的解具有稀疏性，而对率损失是光滑的而单调递减函数，不能导出类似支持向量的概念。因此对率回归的解依赖于更多的训练样本，其预测开销大。

[机器学习 - 周志华] - 第六章 支持向量机

间隔与支持间隔

对偶问题

SMO算法

核函数

软间隔与正则化

悦读

[机器学习 - 周志华] - 第六章支持向量机