系列文章目录
第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)
第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)
第五章【机器学习】【监督学习】- 决策树 (Decision Trees)
第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)
第七章 【机器学习】【监督学习】-神经网络 (Neural Networks)
目录
前言
在先前的文章系列中,我们深入探讨了机器学习的基础框架和算法分类,为读者构建了关于这一领域的坚实理论基础。本章节我们将焦点转向监督学习领域中的一个核心算法—— 线性回归,旨在详尽解析其内在逻辑、应用实践及重要参数调整策略。
一、基本定义
(一)、监督学习
监督学习(Supervised Learning)是机器学习中的一种主要方法,其核心思想是通过已知的输入-输出对(即带有标签的数据集)来训练模型,从而使模型能够泛化到未见的新数据上,做出正确的预测或分类。在监督学习过程中,算法“学习”的依据是这些已标记的例子,目标是找到输入特征与预期输出之间的映射关系。
(二)、监督学习的基本流程
数据收集:获取包含输入特征和对应正确输出标签的训练数据集。
数据预处理:清洗数据,处理缺失值,特征选择与转换,标准化或归一化数据等,以便于模型学习。
模型选择:选择合适的算法,如决策树、支持向量机、神经网络等。
训练:使用训练数据集调整模型参数,最小化预测输出与实际标签之间的差距(损失函数)。
验证与调优:使用验证集评估模型性能,调整超参数以优化模型。
测试:最后使用独立的测试集评估模型的泛化能力,确保模型不仅在训练数据上表现良好,也能在未见过的新数据上做出准确预测。
(三)、监督学习分类算法(Classification)
定义:分类任务的目标是学习一个模型,该模型能够将输入数据分配到预定义的几个类别中的一个。这是一个监督学习问题,需要有一组已经标记好类别的训练数据,模型会根据这些数据学习如何区分不同类别。
例子:垃圾邮件检测(垃圾邮件 vs. 非垃圾邮件)、图像识别(猫 vs. 狗)。
二、线性回归
(一)、定义
线性回归是一种统计分析方法,用于确定两个或多个变量间是否存在线性关系,特别是当一个或多个自变量(特征)与一个连续型的因变量(目标)之间存在线性依赖关系时。线性回归的目标是找到一个线性模型,使得模型的预测值与实际观测值之间的差异最小化。
(二)、基本概念
- 模型形式:线性回归模型通常表示为,其中𝑦是因变量,𝑥1,𝑥2,...,𝑥𝑛是自变量,𝛽0,𝛽1,...,𝛽𝑛是模型参数,𝜖是误差项,假设服从均值为0的正态分布。
- 一元线性回归:当模型仅涉及一个自变量时,称为一元线性回归。
- 多元线性回归:当模型涉及两个或更多自变量时,称为多元线性回归。
- 损失函数:在训练过程中,通常使用均方误差(MSE)作为损失函数,即预测值与真实值差的平方和的平均值。
- 参数估计:线性回归的参数(𝛽0,𝛽1,...,𝛽𝑛)可通过最小化损失函数得到,常用的方法是最小二乘法或梯度下降法。
(三)、训练过程
- 初始化参数:设定初始参数值𝛽0和𝛽1。
- 损失函数:定义损失函数,通常是残差平方和(RSS),即∑𝑖=1𝑛(𝑦𝑖−(𝛽0+𝛽1𝑥𝑖))2∑i=1n(yi−(β0+β1xi))2。
- 参数更新:通过梯度下降或最小二乘法等优化算法,迭代更新参数,直到损失函数收敛至最小值。
- 评估模型:使用训练集外的数据(验证集或测试集)评估模型的泛化能力。
(四)、特点
- 简单性和透明性:模型易于理解和解释。
- 线性假设:假设自变量与因变量之间的关系是线性的。
- 正态性假设:误差项通常假设服从正态分布。
- 敏感性:对异常值较为敏感,异常值可能导致模型参数的显著偏差。
(五)、适用场景
- 预测分析:如预测销售量、房价、股价等。
- 趋势分析:分析时间序列数据的趋势,如气温变化。
- 因果关系探究:在控制其他变量的情况下,研究某个变量对结果的影响。
(六)、扩展
- 多项式回归:引入自变量的高次项,以处理非线性关系。
- 岭回归:在损失函数中添加L2正则化项,以防止过拟合。
- LASSO回归:使用L1正则化,既可以防止过拟合,又能进行特征选择。
- 弹性网回归:结合L1和L2正则化,平衡了岭回归和LASSO的优点。
- 广义线性模型:允许因变量服从其他概率分布,如泊松分布或二项分布,适用于分类或计数数据。
三、总结
线性回归是数据分析和机器学习中的一项基础技术,虽然在处理复杂非线性关系时可能受限,但其在数据科学中的地位仍然十分重要。
更多文章,请关注公众号获取:
码上云游