1、跑通baseline
准备工作与环境搭建
Datawhale官方有提供详细的速通文档:从零入门NLP竞赛- 飞书云文档 (feishu.cn)
按照上述文档可以速通baseline。只要会点运行就可以!!!
2、Task1:了解机器翻译 & 理解赛题
1-知识点--数据划分
在机器学习和深度学习项目中,数据集通常被划分为三个部分:训练集(Training Set)、开发集(Development Set,也常被称为验证集,Validation Set)和测试集(Test Set)。这种划分的主要目的是为了评估模型的性能并防止过拟合,确保模型具有良好的泛化能力。下面是这三个数据集的具体作用:
-
训练集(Training Set):
-
作用:训练集用于训练模型,使模型能够学习输入数据与输出结果之间的映射关系。模型会根据训练集中的样本调整其参数,以最小化预测误差。
-
目标:让模型在训练数据上尽可能地拟合好,学习到数据的内在规律。
-
-
开发集/验证集(Development/Validation Set):
-
作用:开发集用于在模型训练过程中调整超参数、选择模型架构以及防止过拟合。它作为独立于训练集的数据,用于评估模型在未见过的数据上的表现。
-
目标:通过在开发集上的性能评估,选择最佳的模型配置,避免模型在训练集上过度拟合,确保模型的泛化能力。
-
-
测试集(Test Set):
-
作用:测试集用于最终评估模型的性能,是在模型训练和调参完全完成后,用来衡量模型实际应用效果的一组数据。它是最接近真实世界数据的评估标准。
-
目标:提供一个公正、无偏见的性能估计,反映模型在未知数据上的泛化能力。
-
2-baseline 提升与思考
尝试提升
来试试看调整了参数的baseline:
按照速通手册一样走完流程,提交后对比前后分数并了解修改了什么。
分析两个版本baseline的差异,思考是什么影响了它们的效果。
(提问:提升了几倍?怎么提升的?为啥会提升?)
(再提一个小问题:大家在调整这两个变化的参数的时候有没有发现他似乎有一个“界”,如果发现了也可以思考思考为啥🤔🤔?)
参数解析
可以注意到修改了N和N_EPOCHS。
N:选择数据集的前N个样本进行训练。
N_EPOCHS:一次epoch是指将所有数据训练一遍的次数。
两者作用是将数据集中前N个样本抓取训练了N_EPOCHS轮。
如下图所示:
可以看到分数较第一次有所提高