Bootstrap

如何正确使用机器学习中的训练集、验证集和测试集?

王树义

读完需要

19

分钟

速读仅需7分钟

训练集、验证集和测试集,林林总总的数据集合类型,到底该怎么选、怎么用?看过这篇教程后,你就能游刃有余地处理它们了。

640?wx_fmt=jpeg

1

   

问题

审稿的时候,不止一次,我遇到作者错误使用数据集合跑模型准确率,并和他人成果比较的情况。

他们的研究创意有的很新颖,应用价值较高,工作可能也做了着实不少。

但因对比方法错误,得出来的结果,不具备说服力。几乎全部都需要返工。

这里,我帮你梳理一下,该怎么使用不同的数据集合:

  • 训练集(training set)

  • 验证集(validation set)

  • 测试集(test set)

目的只有一个——避免你踩同样的坑。

其实这个问题,咱们之前的教程文章,已有涉及。

如何用 Python 和深度迁移学习做文本分类?》一文中,我曾经给你布置了一个类似的问题。

在文章的末尾,我们对比了当时近期研究中, Yelp 情感分类的最佳结果。

下表来自于:Shen, D., Wang, G., Wang, W., Min, M. R., Su, Q., Zhang, Y., ... & Carin, L. (2018). Baseline needs more love: On simple word-embedding-based models and associated pooling mechanisms. arXiv preprint arXiv:1805.09843.

640?wx_fmt=jpeg

注意这里最高的准确率(Accuracy)数值,是 95.81 。

我们当时的模型,在验证集上,可以获得的准确率,是这个样子的:

640?wx_fmt=jpeg

97.28%,着实不低啊!

于是我问你:

咱们这种对比,是否科学?

你当时的答案是什么?

这么久过去了,又看了那么多新的教程和论文,你的答案发生变化了吗?

现在咱们公布一下答案吧。

不科学。

为什么?

因为对比方法有问题。

2

   

方法

原文中有这样一句:

这里数据集只提供了训练集和“测试集”,因此我们把这个“测试集”当做验证集来使用。

作为演示,数据集咱们想怎么用,就可以怎么用。

甚至你把测试集拿来做训练,然后在训练集上跑测试,都没有人管。

但是写学术论文,声称你的模型优于已有研究,却绝不能这么草率。

注意,比较模型效能数值结果时,你只能拿不同的模型,在同样的测试集上面比。

测试集不同,当然不可以。

但模型A用测试集,模型B用验证集(与A的测试集数据完全一致)比,可以吗?

很多人就会混淆了,觉得没问题啊。既然数据都一样,管它叫做什么名称呢?

可是请你注意,哪怕A模型用的测试集,就是B模型用的验证集,你也不能把这两个集合跑出来的结果放在一起比较。

因为这是作弊。

你可能觉得我这样说,颇有些吹毛求疵的意味。

咱们下面就来重新梳理一下,不同数据集合的作用。

希望你因此能看清楚,这种似乎过于严苛的要求,其实是很有道理的。

咱们从测试集开始谈,继而是验证集,最后是训练集。

这样“倒过来说”的好处,是会让你理解起来,更加透彻。

先说测试集吧。

3

   

测试

只有在同样的测试集上,两个(或以上)模型的对比才有效。

这就如同参加高考,两个人考同样一张卷子,分数才能对比。

甲拿A地区的卷子,考了600分,乙拿B地区的卷子,考了580分。你能不能说,甲比乙成绩高?

不行吧。

为了让大家更易于比较自己的模型效果,许多不同领域的数据集,都已开放了。而且开放的时候,都会给你指明,哪些数据用于训练,哪些用于测试。

以 Yelp 数据为例。

640?wx_fmt=jpeg

在 AWS 上存储的 fast.ai 公开数据集中,训练集和测试集都已为你准备好。

你不需要自己进行划分。

大家达成共识,做研究、写论文,都用这个测试集来比拼,就可以。

所以,如果你的研究,是靠着比别人的模型效果来说事儿,那就一定先要弄明白对方的测试集是什么。

但是,这个听起来很容易达成的目标,实践中却很容易遇到困难。

因为有的人写论文,喜欢把数据和代码藏着掖着,生怕别人用了去。

他们一般只提一下,是在某个公开数据集上切了一部分出来,作为测试集。

测试数据集不发布,切分方法(包括工具)和随机种子选取办法也不公开。

这是非常不靠谱的行为,纯属自娱自乐。

作为严肃的审稿人,根本就不应该允许这样的研究发表。

因为机器学习研究的数据集不开放,便基本上没有可重复性(Reproducibility)。

如果你没有办法精确重复他的模型训练和测试过程,那么他想汇报多高的准确率,就纯凭个人爱好了。

当然,我们不是活在理想世界的。

你在某一个领域,用机器学习做应用研究的时候,面对这种无法重复已发表论文的情境,该怎么办?

直接用他声称的结果与你的实际运行结果比较,你可能是在追逐海市蜃楼。累到气喘吁吁,甚至怀疑自我的程度,也徒劳无功。

忽视它?

也不行。

审稿人那关你过不去。

人家会说,某某研究跟你用的是一样的数据,准确率已经达到98%,你的才96%,有什么发表的意义呢?

看,左右为难不是?

其实解决办法很简单。

不要考虑对方声称达到了多高准确率。把他提供给你的数据全集,自行切分。之后复现对方的模型,重新跑。

模型架构,一般都是要求汇报的,所以这几乎不是问题。

至于这种复现,越是复杂的模型,我越推荐你用 PyTorch 。

之后把你的模型,和复现的对方模型在同样的测试集上做对比,就可以了。

当然,论文里要写上一句:

由于某篇文章未提供代码与具体数据切分说明,带来可重复性问题,我们不得不独立复现了其模型,并在测试集完全一致的情况下,进行了比对。

这里多说一句,一定要保证你自己的研究,是可重复的。

不要怕公布你的代码和数据。它们不是你的独门暗器,而是支撑你研究的凭据。

回看我们前面提到的 Yelp 公开数据的例子。

640?wx_fmt=jpeg

这时候你会发现一个奇怪的问题——为什么它只有训练集和测试集?

我们一直反复提到的验证集哪里去了?

4

   

验证

验证集,就如同高考的模拟考试。

不同于高考,模拟考只是你调整自己状态的指示器而已。

状态不够满意,你可以继续调整。

当然,参加过高考的同学都有经验——这种调整的结果(从模拟考到高考),有可能更好,也有可能更糟糕。

回到机器学习上,那就是测试集上检验的,是你最终模型的性能。

什么叫“最终模型”?

就是你参加高考时候的状态。包括你当时的知识储备、情绪心态,以及当天的外部环境(温度、湿度、东西是否带齐)等。

最终模型,只有一个。

就如同每年的高考,你只能参加一回。

考成什么样儿,就是什么样。

而验证集上跑的,实际上却是一个模型集合,集合的大小,你可能数都数不过来。

因为这里存在着超参数(hyper-parameter)设置的问题。不同超参数组合,就对应着不同的潜在模型。

验证集的存在,是为了从这一堆可能的模型中,帮你表现最好的那个。

注意这里的表现,是指在验证集上的表现。

好比说,有个超参数叫做训练轮数(epochs)。

在同样的训练集上,训练3轮和训练10轮,结果可能是不一样的模型。它们的参数并不相同。

那么到底是训练3轮好,还是10轮好?

或者二者都不好,应该训练6轮?

这种决策,就需要在训练后,在验证集上“是骡子是马牵出来溜溜”。

如果发现训练3轮效果更好,那么就应该丢弃掉训练6轮、10轮的潜在模型,只用训练3轮的结果。

这对应着一种机器学习正则化(Regularization)方式——提早停止训练(early stopping)。

其他的超参数选取,你也可以举一反三。总之就是按照验证集的效果,来选超参数,从而决定最终模型。

下一步,自然就是把它交给测试集,去检验。这个我们前面已经详细讲解过了。

至于这个最终选择模型,在新数据集(测试集)上表现如何,没人能打包票。

所以,回到咱们之前的问题。在《如何用 Python 和深度迁移学习做文本分类?》一文中,我故意用验证集上筛选出的最好模型,在验证集上跑出来分数,当成是测试成绩,这显然是不妥当的。

你不能把同样的题做他个三五遍,然后从中找最高分去跟别人比。

即便你的模拟考,用的是别人的高考真题。两张卷子完全一样,也没有说服力。

所以你看,验证集的目的,不是比拼最终模型效果的。

因此,怎么设定验证集,划分多少数据做验证,其实是每个研究者需要独立作出的决策,不应该强行设定为一致。

这就如同我们不会在高考前去检查每个考生,是否做过一样多的模拟试卷,且试卷内容也要一致。

极端点儿说,即便一个考生没参加过模拟考,可高考成绩突出,你也不能不算他的成绩,对吧?

不过,讲到这里,我们就得要把训练集拿进来,一起说说了。

5

   

训练

如果测试集是高考试卷,验证集是模拟考试卷,那么训练集呢?

大概包括很多东西,例如作业题、练习题。

另外,我们上高三那时候(噫吁嚱,已经上个世纪的事儿了),每周有“统练”,每月有“月考”。也都可以划定在训练集的范畴。

减负这么多年以后,现在的高中生应该没有那么辛苦了吧?真羡慕他们。

这样一对比,你大概能了解这几个集合之间本应有的关系。

学生平时练题,最希望的,就是考试能碰到原题,这样就可以保证不必动脑,却做出正确答案。

所以,出模拟考卷时,老师尽量要保证不要出现学生平时练过的题目,否则无法正确估量学生目前的复习备考状态,噪声过高容易误事儿。

验证集和训练集,应该是不交叠的。这样选择模型的时候,才可以避免被数据交叠的因素干扰。

每个学校的模拟考,却都恨不得能押中高考的题。这样可以保证本校学生在高考中,可以“见多识广”,取得更高分数。

高考出卷子的老师,就必须尽力保证题目是全新的,以筛选出有能力的学生,而不是为高校选拔一批“见过题目,并且记住了标准答案”的学生。

因此,测试集应该既不同于训练集,又不同于验证集。

换句话说,三个数据集合,最好都没有重叠。

学生应该学会举一反三,学会的是知识和规律。

用知识和规律,去处理新的问题。

我们对机器模型的期许,其实也一样。

在学术论文中,你见到的大部分用于机器学习模型对比的公开数据集(例如 fast.ai 公开数据集中的 Yelp, IMDB, ImageNet 等),都符合这一要求。

然而,例外肯定是有的。

例如我在 INFO 5731 课程里面给学生布置的某期末项目备选项,来源于某学术类数据科学竞赛,目标是社交媒体医学名词归一化。

其中就有数据,既出现在了训练集,又出现在了验证集,甚至测试集里也会有。

面对这种问题,你该怎么办?

你怎么判断自己的模型,究竟是强行记住了答案,还是掌握了文本中的规律?

这个问题,作为思考题留给你。

我希望在知识星球中和热爱学习的你,做进一步讨论。

另外的一个问题,是训练集要不要和别人的完全一致?

一般来说,如果你要强调自己的模型优于其他人,那么就要保证是在同样的训练集上训练出来。

回顾深度学习的三大要素:

  • 数据(Data)

  • 架构(Architecture)

  • 损失(Loss)

如果你的训练数据,比别人多得多,那么模型自然见多识广。

对于深度学习而言,如果训练数据丰富,就可以显著避免过拟合(Overfitting)的发生。

GPT-2 模型,就是因为具备了海量 Reddit 数据做训练,才能傲视其他语言模型(Language Model),甚至以安全为理由,拒绝开放模型。

但是这时候,你跟别人横向比较,似乎就不大公平了。

你的架构设计,未必更好。假使对方用同样多的数据训练,结果可能不必你差,甚至会更优。

这就如同一个复读了5年的学生甲,充分利用每一分每一秒,做了比应届生乙多5倍的卷子。结果在高考的时候,甲比乙多考了1分(同一张卷子)。

你能说甲比乙更有学习能力,学习效果更好吗?

6

   

小结

这篇教程里,我为你梳理了机器学习中常见的三种不同数据集类别,即:

  • 训练集

  • 验证集

  • 测试集

咱们一一分析了其作用,并且用“考试”这个大多数人都参加过,且容易理解的例子做了诠释。

希望读过本文之后,你的概念架构更为清晰,不再会误用它们,避免给自己的研究挖坑。

祝深度学习愉快,论文发表顺利哦!

7

   

作业

这里给你留一道思考题:

有的时候,你看到有人把训练集切分固定的一部分,作为验证集。但是另一些时候,你会看到有人采用“交叉验证”的方式,即每一轮训练,都动态轮转着,把一部分的数据,作为验证集。对吧?

那么问题来了,什么样的情况下,你应该采用第一种方式,即固定分配验证集?什么样的情况下,你应该采用“交叉验证”方式呢?后者的优势和缺点,又各是什么呢?

欢迎你留言回复,写下自己的判断标准与原因阐述。咱们一起交流讨论。

8

   

征稿

One more thing ……

这里还有个征稿启事。

国际学术期刊 Information Discovery and Delivery 要做一期关于 “Information Discovery with Machine Intelligence for Language” 的特刊(Special Issue)。

640?wx_fmt=png

本人是客座编辑(guest editor)之一。另外两位分别是:

  • 我在北得克萨斯大学(University of North Texas)的同事 Dr. Alexis Palmer 教授

  • 南京理工大学章成志教授

640?wx_fmt=png

征稿的主题包括但不限于:

  • Language Modeling for Information Retrieval

  • Transfer Learning for Text Classification

  • Word and Character Representations for Cross-Lingual Analysis

  • Information Extraction and Knowledge Graph Building

  • Discourse Analysis at Sentence Level and Beyond

  • Synthetic Text Data for Machine Learning Purposes

  • User Modeling and Information Recommendation based on Text Analysis

  • Semantic Analysis with Machine Learning

  • Other applications of CL/NLP for Information Discovery

  • Other related topics

具体的征稿启事(Call for Paper),请查看 Emerald 期刊官网的这个链接(http://dwz.win/c2Q)。

作为本专栏的老读者,欢迎你,及你所在的团队踊跃投稿哦。

如果你不巧并不从事上述研究方向(机器学习、自然语言处理和计算语言学等),也希望你能帮个忙,转发这个消息给你身边的研究者,让他们有机会成为我们特刊的作者。

谢谢!

9

   

延伸阅读

你可能也会对以下话题感兴趣。点击链接就可以查看。

喜欢别忘了点赞,并且把它转发给你身边有需要的朋友。

别忘了,赞赏就是力量。

640?wx_fmt=jpeg

由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开。如有需要,请点击文末的“阅读原文”按钮,访问可以正常显示外链的版本。

订阅我的微信公众号“玉树芝兰”,第一时间免费收到文章更新。别忘了加星标,以免错过新推送提示。

640?wx_fmt=jpeg

如果你对 Python 与数据科学感兴趣,希望能与其他热爱学习的小伙伴一起讨论切磋,答疑解惑,欢迎加入知识星球。

640?wx_fmt=png

题图: Photo by Jonah Pettrich on Unsplash

;