Bootstrap

线性可分支持向量机的原理推导 9-25 公式解析

本文是将文章《线性可分支持向量机的原理推导》中的公式单独拿出来做一个详细的解析,便于初学者更好的理解。


你提到的公式是支持向量机中的公式 9-25,它表示对拉格朗日函数 L ( w , b , α ) L(w, b, \alpha) L(w,b,α) 关于 w w w 求导后的结果,并设定偏导数为 0 来找到最优解。我们来详细解释这个公式。

公式 9-25 的表达式为:
∂ L ∂ w = w ∗ − ∑ i = 1 N α i ∗ y i x i = 0 \frac{\partial L}{\partial w} = w^* - \sum_{i=1}^{N} \alpha_i^* y_i x_i = 0 wL=wi=1Nαiyixi=0

1. 公式的含义

这个公式是支持向量机优化问题中的站点条件,用于求解最优的法向量 w ∗ w^* w。公式中的每个符号的含义如下:

  • w ∗ w^* w:这是优化过程中求得的最优法向量,定义了支持向量机的分类超平面。
  • α i ∗ \alpha_i^* αi:这是优化求解得到的最优拉格朗日乘子,表示每个样本点的权重。 α i ∗ ≥ 0 \alpha_i^* \geq 0 αi0,并且只有 α i ∗ > 0 \alpha_i^* > 0 αi>0 的样本点(即支持向量)才会对分类超平面有贡献。
  • y i y_i yi:是第 i i i 个样本的类别标签,取值为 + 1 +1 +1 − 1 -1 1
  • x i x_i xi:是第 i i i 个样本的特征向量,表示样本点在特征空间中的位置。
  • N N N:是样本的数量。

2. 公式的推导

该公式源自拉格朗日函数对 w w w 的求导,并设偏导数为 0 以满足最优性条件。

拉格朗日函数 L ( w , b , α ) L(w, b, \alpha) L(w,b,α) 的定义为:
L ( w , b , α ) = 1 2 ∥ w ∥ 2 − ∑ i = 1 N α i ( y i ( w T x i + b ) − 1 ) L(w, b, \alpha) = \frac{1}{2} \|w\|^2 - \sum_{i=1}^{N} \alpha_i \left( y_i (w^T x_i + b) - 1 \right) L(w,b,α)=21w2i=1Nαi(yi(wTxi+b)1)

第一步:对 w w w 求导

为了找到最优法向量 w w w,我们对拉格朗日函数 L ( w , b , α ) L(w, b, \alpha) L(w,b,α) 关于 w w w 求导:

  • 第一项 1 2 ∥ w ∥ 2 \frac{1}{2} \|w\|^2 21w2:这是关于 w w w 的二次项,其偏导数为:
    ∂ ∂ w ( 1 2 ∥ w ∥ 2 ) = w \frac{\partial}{\partial w} \left( \frac{1}{2} \|w\|^2 \right) = w w(21w2)=w

  • 第二项 ∑ i = 1 N α i y i ( w T x i + b ) \sum_{i=1}^{N} \alpha_i y_i (w^T x_i + b) i=1Nαiyi(wTxi+b) 中,只有 w T x i w^T x_i wTxi w w w 有关,其偏导数为:
    ∂ ∂ w ( ∑ i = 1 N α i y i w T x i ) = ∑ i = 1 N α i y i x i \frac{\partial}{\partial w} \left( \sum_{i=1}^{N} \alpha_i y_i w^T x_i \right) = \sum_{i=1}^{N} \alpha_i y_i x_i w(i=1NαiyiwTxi)=i=1Nαiyixi

第二步:设置偏导数为 0

我们将这两个偏导数结合,并设置偏导数为 0:
w − ∑ i = 1 N α i y i x i = 0 w - \sum_{i=1}^{N} \alpha_i y_i x_i = 0 wi=1Nαiyixi=0

从而得到最优法向量 w ∗ w^* w 的表达式:
w ∗ = ∑ i = 1 N α i ∗ y i x i w^* = \sum_{i=1}^{N} \alpha_i^* y_i x_i w=i=1Nαiyixi

这个公式表示最优法向量 w ∗ w^* w 是所有样本点的线性组合,每个样本点 x i x_i xi 的权重由拉格朗日乘子 α i ∗ \alpha_i^* αi 和类别标签 y i y_i yi 确定。

3. 几何意义

这个公式告诉我们,支持向量机的分类超平面法向量 w ∗ w^* w 是由一组样本点的线性组合构成的。并且:

  • 只有那些 α i ∗ > 0 \alpha_i^* > 0 αi>0 的样本点(即支持向量)对分类超平面的构造起到作用。
  • 其他 α i ∗ = 0 \alpha_i^* = 0 αi=0 的样本点不会影响分类超平面的定义。

4. 公式的物理意义

  • 支持向量的作用:根据这个公式,只有那些处于分类边界附近的支持向量(即 α i ∗ > 0 \alpha_i^* > 0 αi>0)才会对分类器的超平面产生影响,而那些远离分类边界的样本点则不会影响 w ∗ w^* w 的计算。

  • 法向量的确定:法向量 w ∗ w^* w 是所有支持向量的加权和,它决定了分类器的方向和位置。

5. 总结

公式 9-25 是支持向量机中的核心公式之一,它表明最优法向量 w ∗ w^* w 是由支持向量的线性组合构成的。通过优化拉格朗日乘子 α i \alpha_i αi,我们可以确定哪些样本点是支持向量,并构造出分类超平面的最优法向量。

;