机器学习中有监督的学习,通过标注data训练model时,通常采用交叉验证的方法选择模型参数。
将有标注的data分为训练集,(交叉)验证集,测试集三份:
机器学习的model中,有些模型参数是需要事先指定的,在training之前就是一个常量(与在training过程中通过minimize目标函数求得的参数不同),根据经验指定参数不一定靠谱,所以需要在training之前,做一个交叉验证来选择这个常量的值。
在做Model Selection,更确切的说做模型参数选择的时候,而(这里以多项式kernel的SVM为例,我们需要选择的参数是多项式的阶数k):
1 训练:先用Training Set在一次模型、二次模型、三次模型(几次指的是的z=Zθ(x) 阶数)情况下跑一下,然后用数值优化的算法求得在指定阶数情况下,使Training error最小的参数θ分别是多少
2 参数寻优:用Cross Validation Set在1中得到的每个模型M(1,θ1)...M(k,θk)...M(n,θn)跑一下,计算出Cross Validation error,选择使这个error最小的模型次数k
3 最终训练:给定阶数k,训练得出在Training Set+CV Set上,使Training error最小的参数θ,得到模型M(k,θk’)
效果评估:
用Test Set在3中得到的模型M(k,θk’)(此时所选模型已经固定了,不能再改参数了)跑一下,计算出Test error,作为对于模型generalization error的评估,也就是对于未知数据的预测准确率。
重要的一点是,Test Set中的数据必须是训练出来的模型之前所没有见过的,这样才能预测模型对于新来的未知数据的预测能力。所以Test Set不能参与Model Selection的过程,只能在模型固定后作为一个效果评估,来看看训练出来的这个东西如果遇到新的数据效果怎么样,能不能上线。
这里说的是基本的交叉验证。
------------------------------------------------------------------------------
可能之前的博文有说的不清楚的地方,我解释一下
上面这种是基本的交叉验证,有一种效果和时间开销都适中的变体,也就是n-fold交叉验证,是现在做机器学习实验最常用的做法:
原文是"就是把Test Set之外的数据分为n份,n份中的每1份轮流作为CV set,其余n-1份作为Training set,这样训练n次,取n次所得CV error平均值作为一个模型最终的CV error,作为参数选择的指标。"
因为单个model的参数选择依赖于Training set,最终model的选择是依赖于CV set,而model对于Test Set是没有依赖的,所以在Test Set上的准确率一般来说会比CV Set低一些。