【机器学习基础】第六课：线性回归

【机器学习基础】系列博客为参考周志华老师的《机器学习》一书，自己所做的读书笔记。

1.线性模型基本形式

给定由 $d$ 个属性描述的示例 $\mathbf x=(x_1;x_2;...;x_d)$ ，那么线性模型的基本形式可写为：

$f(\mathbf x)=w_1x_1+w_2x_2+w_3x_3+...+w_dx_d+b$

一般用向量形式写成：

$f(\mathbf x)=\mathbf w^T \mathbf x+b$

其中， $\mathbf w=(w_1;w_2;...;w_d)$ 。（⚠️默认均为列向量。）

❗️注意：这里 $\mathbf w,\mathbf x$ 都用的是分号分隔，即均为 $d\times 1$ 的矩阵，而不是 $1\times d$ 。

上述 $f(\mathbf x)=\mathbf w^T \mathbf x+b$ 得到的是一个数值，针对的是一个示例。如果有多个示例，可以按矩阵的形式如下展开：

$\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{pmatrix} =\begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1d} \\ x_{21} & x_{22} & \cdots & x_{2d} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} \end{pmatrix} \cdot \begin{pmatrix} w_1 \\ w_2 \\ \vdots \\ w_d \end{pmatrix} + \begin{pmatrix} b \\ b \\ \vdots \\ b \end{pmatrix} \tag{1.1}$

(矩阵维数： $m\times 1=(m\times d)\cdot (d\times 1)+(m\times 1)$ )

其中， $m$ 为数据条数， $d$ 为属性个数。

2.线性回归

先考虑一种最简单的情形：输入属性的数目只有一个，此时有两种情况：

属性值为连续型数据。
属性值为离散型数据。
- 若属性值间存在“序”关系，可通过连续化将其转化为连续值，例如二值属性“身高”的取值“高”“矮”可转化为 ${1,0\}$ ，三值属性“高度”的取值“高”“中”“低”可转化为 ${1,0.5,0\}$ 。
- 若属性值间不存在序关系，假定有 $k$ 个属性值，则通常转化为 $k$ 维向量，例如属性“瓜类”的取值“西瓜”“南瓜”“黄瓜”可转化为 $(0, 0, 1), (0, 1, 0), (1, 0, 0)$ （👉即one-hot编码）（⚠️若将无序属性连续化，则会不恰当地引入“序”关系，对后续处理如距离计算等造成误导）。

含有 $m$ 条数据的数据集 $D$ 可表示为 $D=\{(x_i,y_i)\}_{i=1}^{m}$ 。

线性回归试图学得：

$f(x_i)=wx_i+b$

使得 $f(x_i)\simeq y_i$ ，即 $f(x_i)$ 去逼近 $y_i$ 。

此时我们只要求得 $w$ 和 $b$ 的值即可构建出该线性回归模型。如果使用“均方误差”作为模型的性能度量（均方误差是回归任务中最常用的性能度量），则现在的任务是试图求出一组 $(w, b)$ 可使均方误差最小化，即：

$\begin{align} (w^*,b^*) & =\mathop{\arg\min}_{(w,b)} \sum_{i=1}^m(y_i-f(x_i))^2 \\ & = \mathop{\arg\min}_{(w,b)} \sum_{i=1}^m(y_i-wx_i-b)^2 \end{align}$

$w^*$ 表示w的解。
$b^*$ 表示b的解。
$\arg\min$ ：就是使后面这个式子达到最小值时的变量的取值； $\arg\max$ ：就是使后面这个式子达到最大值时的变量的取值。（⚠️达到最小（大）值时，变量的取值可能有多个。）

2.1.最小二乘法

均方误差有非常好的几何意义，它对应了常用的欧几里得距离或简称 “欧氏距离” 。基于均方误差最小化来进行模型求解的方法称为 “最小二乘法”(least square method)。在线性回归中，最小二乘法就是试图找到一条直线使所有样本到直线上的欧式距离之和最小。

补充内容：距离

闵氏距离（又称闵可夫斯基距离）： $\rho (A,B)=(\sum_{i=1}^n \mid a_i-b_i \mid ^p)^{\frac {1}{p}}$

其中， $A=(a_1,a_2,...,a_n),B=(b_1,b_2,...,b_n)$

$p = 1$ 时，曼哈顿距离
$p = 2$ 时，欧氏距离
$p\to \infty$ 时，切比雪夫距离

2.2.参数估计

求解 $w$ 和 $b$ 使 $E_{(w,b)}=\sum_{i=1}^m(y_i-wx_i-b)^2$ 最小化的过程，称为线性回归模型的最小二乘 “参数估计”。

📍这里 $E_{(w,b)}$ 是关于 $w$ 和 $b$ 的凸函数，因此当它关于 $w$ 和 $b$ 的一阶导数均为0时，均方误差最小，此时得到 $w$ 和 $b$ 的最优解。

将 $E_{(w,b)}$ 对 $w$ 和 $b$ 分别求其一阶导数：

$\frac{\partial E_{(w,b)}}{\partial w}=2\bigg(w\sum_{i=1}^m x_i^2-\sum _{i=1}^m(y_i-b)x_i \bigg) \tag{2.1}$

$\frac{\partial E_{(w,b)}}{\partial b}=2\bigg(mb-\sum_{i=1}^m(y_i-wx_i)\bigg) \tag{2.2}$

令式(2.1)和式(2.2)为零可得到 $w$ 和 $b$ 最优解的闭式解：

$w=\frac{\sum_{i=1}^m y_i(x_i-\bar x)}{\sum_{i=1}^m x_i^2-\frac{1}{m}(\sum_{i=1}^mx_i)^2}$

$b=\frac{1}{m}\sum_{i=1}^m(y_i-wx_i)$

其中 $\bar x=\frac{1}{m} \sum_{i=1}^m x_i$ 为 $x$ 的均值。

补充：闭式解和数值解

闭式解(closed-form solution，又称解析解，闭合解)：就是一些严格的公式，给出任意的自变量就可以求出其因变量，也就是问题的解。其实就是对于一个问题的求解，所得到的结果是一个函数表达式，而不是一个具体的数值或者数据，只要在这个结果函数表达式中再代入具体数值，就可以求得对应问题的数值解。

数值解：是采用某种计算方法，如有限元的方法，数值逼近，插值的方法，得到的解。别人只能利用数值计算的结果，而不能随意给出自变量并求出计算值。即对于问题的求解结果是一个具体的数值或者数据，使用者不能再对这个数值或者数据做任何数值计算或化简等操作。

3.多变量线性回归

以上是一个属性的情况，现在讨论多个属性的线性回归，称为 “多变量线性回归”。即：

$f(\mathbf {x_i})=\mathbf w^T \mathbf {x_i}+b$

即第1部分讲述的线性模型的基本形式。

数学公式书写规范：

采用粗体表示矩阵和向量（也称矢量，既有大小又有方向的量）。

其中，向量也可用【斜体+箭头】来表示，例如： $\overrightarrow {\textit j}$ 。

使得 $f(\mathbf {x_i}) \simeq y_i$ ，类似的，可利用最小二乘法对 $\mathbf w$ 和 $b$ 进行估计。

将式(1.1)改写为：

$\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{pmatrix} =\begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1d} & 1 \\ x_{21} & x_{22} & \cdots & x_{2d} & 1\\ \vdots & \vdots & \ddots & \vdots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \end{pmatrix} \cdot \begin{pmatrix} w_1 \\ w_2 \\ \vdots \\ w_d \\ b \end{pmatrix} \tag{3.1}$

其中，

$\mathbf X= \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1d} & 1 \\ x_{21} & x_{22} & \cdots & x_{2d} & 1\\ \vdots & \vdots & \ddots & \vdots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \end{pmatrix}= \begin{pmatrix} \mathbf x_1^T & 1 \\ \mathbf x_2^T & 1 \\ \vdots & \vdots \\ \mathbf x_m^T & 1 \end{pmatrix}$

如式(3.1)所示，把 $\mathbf w$ 和 $b$ 吸收入向量形式 $\widehat{\mathbf w}=(\mathbf w;b)$ ，相应的，把数据集 $D$ 表示为一个 $m\times (d+1)$ 大小的矩阵 $\mathbf X$ ，其中每行对应于一个示例，该行前 $d$ 个元素对应于示例的 $d$ 个属性值，最后一个元素恒置为1。

因此， $\widehat{\mathbf w}$ 的解为：

$\widehat{\mathbf w}^*=\mathop{\arg\min}_{\widehat{\mathbf w}} (\mathbf y - \mathbf X\widehat{\mathbf w})^T(\mathbf y-\mathbf X\widehat{\mathbf w})$

令 $E_{\widehat{\mathbf w}}=(\mathbf y - \mathbf X\widehat{\mathbf w})^T(\mathbf y-\mathbf X\widehat{\mathbf w})$ ，对 $\widehat{\mathbf w}$ 求导得到（这里涉及到矩阵求导）：

$\frac{\partial E_{\widehat{\mathbf w}}}{\partial \widehat{\mathbf w}}=2\mathbf X^T(\mathbf X\widehat{\mathbf w}-\mathbf y) \tag{3.2}$

令式(3.2)等于零便可得到 $\widehat{\mathbf w}$ 最优解的闭式解。但是由于计算过于复杂，所以这里讨论一种简单的情况，即当 $\mathbf X^T \mathbf X$ 为满秩矩阵或正定矩阵时，令式(3.2)等于零可得：

$\widehat{\mathbf w}^*=(\mathbf X^T \mathbf X)^{-1}\mathbf X^T \mathbf y$

矩阵乘法：

矩阵等式两边同时左乘（或右乘）同一个矩阵，在乘法有意义的前提下，等式总是成立。

然而，现实任务中 $\mathbf X^T \mathbf X$ 往往不是满秩矩阵。例如，在许多任务中我们会遇到大量的变量，其数目甚至超过样例数，导致 $\mathbf X$ 的列数多于行数， $\mathbf X^T \mathbf X$ 显然不满秩。（例如，生物信息学的基因芯片数据中常有成千上万个属性，但往往只有几十，上百个样例。）