#引言
机器学习可以从不同的视角进行理解和分析,其中两种主要的视角是频率视角和贝叶斯视角
文章目录
一、频率视角下的机器学习
频率视角下的机器学习是基于经典统计学原理的,它主要关注的是数据的频率或概率。当重复试验的次数趋近于无穷大时,事件发生的频率会收敛到真实的概率之上
1.1 基本概念
- 参数模型:在这个视角下,数据被认为是由一个固定的但未知的参数集合生成的。这些参数描述了数据的分布
- 点估计:使用训练数据来估计模型参数的具体值
- 置信区间:给出参数估计的不确定性范围
1.2 训练过程
- 数据被视为独立同分布(i.i.d.)的样本
- 通过最小化损失函数(如均方误差或交叉熵)来找到最优的参数估计
- 最小二乘法和最大似然估计是频率视角下常用的方法
1.3 模型评估
- 使用测试数据集来评估模型的性能
- 通过统计测试(如p值)来确定模型的有效性
1.4 理论核心
频率统计理论的核心在于认定待估计的参数是固定不变的常量,讨论参数的概率分布是没有意义的;而用来估计参数的数据是随机的变量,每个数据都是参数支配下一次独立重复试验的结果。由于参数本身是确定的,那频率的波动就并非来源于参数本身的不确定性,而是由有限次观察造成的干扰而导致,主要使用最大似然估计法,让数据在给定参数下的似然概率最大化;频率视角对应机器学习中的统计学习,以经验风险最小化作为模型选择的准则
1.5 解决问题的基本思路
频率主义解决统计问题的基本思路如下:参数是确定的,数据是随机的,利用随机的数据推断确定的参数,得到的结果也是随机的
1.6 总结
参数确定,数据随机
二、贝叶斯视角下的机器学习
贝叶斯视角下的机器学习是基于贝叶斯统计学原理的,它将概率视为对不确定性的量化,并且允许我们更新我们对参数的信念,概率表示的是客观上事件的可信程度(degree of belief),也可以说成是主观上主体对事件的信任程度,它是建立在对事件的已有知识基础上的
2.1 基本概念
- 先验概率:在看到任何数据之前,对参数的初始信念
- 似然函数:描述了给定参数下数据出现的概率
- 后验概率:结合先验概率和似然函数,得到在看到数据后对参数的更新信念
- 贝叶斯公式:通过先验概率和似然函数计算后验概率的数学公式
2.2 训练过程
- 参数被视为随机变量,而不是固定的未知数
- 使用贝叶斯定理来更新参数的分布,而不是寻找一个单一的点估计
- 通常涉及复杂的积分计算,这在实践中可能需要使用近似方法,如马尔可夫链蒙特卡洛(MCMC)
2.3 模型评估
- 使用概率模型来量化预测的不确定性
- 可以通过后验分布来评估模型的不确定性
2.4 理论核心
待估计的参数视为随机变量,用来估计的数据反过来是确定的常数,讨论观测数据的概率分布才是没有意义的,相对于频率主义的最大似然估计,贝叶斯主义在参数估计中倾向于使后验概率最大化,使用最大后验概率估计(maximum a posteriori estimation)
2.5 解决问题的基本思路
将先验概率和后验概率关联起来,使用最大后验概率估计
2.6 总结
数据确定,参数随机
三、两者之间的区别
3.1 理论基础
- 频率视角:基于经典统计学,侧重于数据的频率或概率;假设存在一个固定的、但未知的参数集合,通过数据来估计这些参数
- 贝叶斯视角:基于贝叶斯统计学,将概率视为对不确定性的量化;认为参数本身是随机变量,具有不确定性,并通过数据来更新对这些参数的信念
3.2 目标设定
- 频率视角:目标是找到能够最佳拟合训练数据的参数值,即点估计;关注的是参数估计的准确性,而非参数本身的不确定性
- 贝叶斯视角:目标是得到参数的概率分布,即后验分布;关注的是参数的不确定性,以及如何将这种不确定性反映在最终的决策中
3.3 方法应用
- 频率视角:使用最大似然估计(MLE)或最大后验概率估计(MAP,但这里MAP通常被视为贝叶斯方法的特例)来估计参数;通过最小化损失函数(如均方误差、交叉熵等)来优化模型
- 贝叶斯视角:使用贝叶斯定理结合先验概率和似然函数来计算后验概率;通常涉及复杂的积分运算,可能需要使用近似方法,如马尔可夫链蒙特卡洛(MCMC)或变分推断
3.4 不确定性的处理
- 频率视角:通常不考虑模型参数的不确定性,而是关注于估计的精度
- 贝叶斯视角:明确地考虑参数的不确定性,并通过概率分布来量化
3.5 模型训练
- 频率视角:寻找最优的参数值来最小化损失函数
- 贝叶斯视角:寻找参数的概率分布,这通常涉及到更复杂的计算
3.6 先验信息的利用
- 频率视角:通常不直接使用先验信息
- 贝叶斯视角:通过先验概率显式地利用先验信息
3.7 结果解释
- 频率视角:提供参数的估计值和置信区间
- 贝叶斯视角:提供参数的概率分布,这可以给出更全面的不确定性评估。
总的来说,频率视角和贝叶斯视角在机器学习中的主要区别在于它们对参数和不确定性的理解以及如何利用先验信息。贝叶斯方法在处理小数据集和需要模型不确定性的场景中特别有用