方差和偏差:
偏差表示输出的期望与真实标记的差别,(不考虑噪声的话真实标记就是观测到的数据,考虑噪声的话观测的值有可能是噪声)
方差表示预测值的变化范围,也就是预测值离其期望的距离,等于预测值减去预测值的期望的平方的期望E(f-Ef)的平方。
模型的泛化误差=方差+偏差+噪声(如果不考虑噪声就是方差-偏差分解)
泛化的性能取决于学习算法能力,数据的充分性以及学习任务本身的难度(噪声)。给定学习任务,为了提高泛化能力,则需减少偏差,即能够充分拟合数据,并使方差较小,即使数据扰动产生的影响较小。一般来说,方差和偏差是有冲突的,给定学习任务,假设我们能控制学习算法的训练程度,当训练不足时,学习器对数据的拟合不够时,数据的扰动不足以使学习器发生显著变化,此时偏差主导泛化误差。当训练程度加深时,学习器对数据的拟合能力变强,训练数据发生轻微的扰动都会让学习器发生显著变化,此时方差主导泛化误差,如果训练集自身的特性被学习器学到了,会发生过拟合。
一般来说:偏差大,方差小时发生欠拟合;偏差小方差大时发生过拟合。
过拟合和欠拟合:
过拟合:说明把模型训练的太好了,以至于把训练数据自身的一些特征当作数据的一般特征训练模型
欠拟合:不能很好的拟合数据
欠拟合解决方法:
1.添加其他特征,
2.减少正则化参数,正则化参数一般是为了防止过拟合的,既然发生了欠拟合,则应减少正则化参数