第6章 支持向量机
在本章中,我们将深入探讨支持向量机(SVM)这一强大的分类算法。SVM在模式识别和机器学习领域广泛应用,尤其在处理高维数据时表现出色。我们将依次讨论间隔与支持向量、对偶问题、核函数、间隔与正则化、支持向量量回归和核方法。
6.1 间隔与支持向量
支持向量机的核心思想是找到一个最佳超平面,将不同类别的数据分开。这个超平面使得两类之间的间隔最大化。设有两类样本点,分别为 C 1 C_1 C1和 C 2 C_2 C2,最佳超平面可以表示为:
w ⋅ x + b = 0 w \cdot x + b = 0 w⋅x+b=0
其中, w w w是法向量, x x x是样本点, b b b是偏置。间隔定义为到超平面的最短距离,表示为:
margin = 2 ∣ ∣ w ∣ ∣ \text{margin} = \frac{2}{||w||} margin=∣∣w∣∣2
通过最大化间隔,我们希望找到最优的 w w w和 b b b,使得:
min w , b 1 2 ∣ ∣ w ∣ ∣ 2 \min_{w,b} \frac{1}{2}||w||^2 w,bmin21∣∣w∣∣2
同时满足约束条件:
y i ( w ⋅ x i + b ) ≥ 1 , ∀ i y_i(w \cdot x_i + b) \geq 1, \forall i yi(w⋅xi+b)≥1,∀i
样本点中位于间隔边界上的样本称为支持向量,它们在确定超平面位置时起着关键作用。
6.2 对偶问题
为了更好地求解SVM的优化问题,我们引入拉格朗日乘子法,将原问题转化为对偶问题。我们定义拉格朗日函数为:
L ( w , b , α ) = 1 2 ∣ ∣ w ∣ ∣ 2 − ∑ i = 1 m α i [ y i ( w ⋅ x i + b ) − 1 ] L(w,b,\alpha) = \frac{1}{2}||w||^2 - \sum_{i=1}^{m} \alpha_i [y_i(w \cdot x_i + b) - 1] L(w,b,α)=21∣∣w∣∣2−i=1∑mαi[yi(w⋅xi+b)−1]
通过对 w w w和 b b b求偏导数并令其为零,我们可以得到对应的对偶问题:
max α ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m α i α j y i y j ( x i ⋅ x j ) \max_{\alpha} \sum_{i=1}^{m} \alpha_i - \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) αmaxi=1∑mαi−21i=1∑mj=1∑mαiαjyiyj(xi⋅xj)
在约束条件:
∑ i = 1 m α i y i = 0 , α i ≥ 0 \sum_{i=1}^{m} \alpha_i y_i = 0, \quad \alpha_i \geq 0 i=1∑mαiyi=0,αi≥0
对偶问题的求解可以更加高效,尤其在样本数量较大时。
6.3 核函数
SVM的一个重要扩展是使用核函数来处理非线性可分问题。核函数通过隐式映射将输入空间映射到更高维的特征空间,从而使得原本非线性可分的问题在新空间中变得线性可分。常见的核函数包括:
- 线性核: K ( x i , x j ) = x i ⋅ x j K(x_i,x_j)=x_i \cdot x_j K(xi,xj)=xi⋅xj
- 多项式核: K ( x i , x j ) = ( γ x i ⋅ x j + r ) d K(x_i,x_j)=(\gamma x_i \cdot x_j + r)^d K(xi,xj)=(γxi⋅xj+r)d
- 高斯核(RBF核): K ( x i , x j ) = exp ( − ∣ ∣ x i − x j ∣ ∣ 2 2 σ 2 ) K(x_i,x_j)=\exp\left(-\frac{||x_i-x_j||^2}{2\sigma^2}\right) K(xi,xj)=exp(−2σ2∣∣xi−xj∣∣2)
在使用核函数时,我们只需要在对偶问题中替换点积$ x_i \cdot x_j 为核函数 为核函数 为核函数 K(x_i,x_j) $,从而避免直接计算高维特征。
6.4 间隔与正则化
在实际应用中,为了提高模型的泛化能力,我们引入正则化技术以防止过拟合。支持向量机的正则化形式为:
min w , b 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 m ξ i \min_{w,b} \frac{1}{2}||w||^2 + C \sum_{i=1}^{m} \xi_i w,bmin21∣∣w∣∣2+Ci=1∑mξi
其中, C C C为正则化参数, ξ i \xi_i ξi为松弛变量,用于处理分类错误。约束条件变为:
y i ( w ⋅ x i + b ) ≥ 1 − ξ i , ξ i ≥ 0 y_i(w \cdot x_i + b) \geq 1 - \xi_i, \quad \xi_i \geq 0 yi(w⋅xi+b)≥1−ξi,ξi≥0
通过调整参数 C C C,可以控制模型的复杂性。
6.5 支持向量量回归
支持向量机不仅可以用于分类,也可以用于回归问题。支持向量回归(SVR)旨在找到一个最佳的超平面,使得大多数数据点在这个超平面附近。SVR的目标是最小化以下损失函数:
min w , b , ξ 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 n ( ξ i + ξ i ∗ ) \min_{w,b,\xi} \frac{1}{2}||w||^2 + C \sum_{i=1}^{n} (\xi_i + \xi_i^*) w,b,ξmin21∣∣w∣∣2+Ci=1∑n(ξi+ξi∗)
其中, ξ i \xi_i ξi和 ξ i ∗ \xi_i^* ξi∗分别表示预测值与真实值的偏差。约束条件为:
y
i
−
(
w
⋅
x
i
+
b
)
≤
ϵ
+
ξ
i
y_i - (w \cdot x_i + b) \leq \epsilon + \xi_i
yi−(w⋅xi+b)≤ϵ+ξi
(
w
⋅
x
i
+
b
)
−
y
i
≤
ϵ
+
ξ
i
∗
(w \cdot x_i + b) - y_i \leq \epsilon + \xi_i^*
(w⋅xi+b)−yi≤ϵ+ξi∗
通过这种方式,SVR能够在给定的 ϵ \epsilon ϵ容忍度内进行有效的回归分析。
6.6 核方法
核方法是支持向量机的另一个重要概念,通过使用核函数,我们可以在不显式计算特征的情况下,完成复杂的分类和回归任务。核方法的核心思想是,通过计算核函数而非直接特征,降低计算复杂度,提高模型的灵活性。
在实际应用中,我们可以使用各种核函数来处理不同类型的数据,调整模型的超参数,以达到最佳的分类或回归效果。
总结
本章详细介绍了支持向量机的基本原理和应用,包括间隔与支持向量、对偶问题、核函数、间隔与正则化、支持向量量回归和核方法。支持向量机凭借其强大的性能和灵活性,在许多实际场景中得到了广泛应用。希望本章的内容能够帮助你深入理解支持向量机的工作机制与应用潜力。