Bootstrap

基于术语词典干预的机器翻译挑战赛Task1#AI夏令营 #Datawhale #夏令营

1、跑通baseline

准备工作与环境搭建

Datawhale官方有提供详细的速通文档:从零入门NLP竞赛- 飞书云文档 (feishu.cn)

按照上述文档可以速通baseline。只要会点运行就可以!!!

2、Task1:了解机器翻译 & 理解赛题

1-知识点--数据划分

在机器学习和深度学习项目中,数据集通常被划分为三个部分:训练集(Training Set)、开发集(Development Set,也常被称为验证集,Validation Set)和测试集(Test Set)。这种划分的主要目的是为了评估模型的性能并防止过拟合,确保模型具有良好的泛化能力。下面是这三个数据集的具体作用:

  • 训练集(Training Set)

    1. 作用:训练集用于训练模型,使模型能够学习输入数据与输出结果之间的映射关系。模型会根据训练集中的样本调整其参数,以最小化预测误差。

    2. 目标:让模型在训练数据上尽可能地拟合好,学习到数据的内在规律。

  • 开发集/验证集(Development/Validation Set)

    1. 作用:开发集用于在模型训练过程中调整超参数、选择模型架构以及防止过拟合。它作为独立于训练集的数据,用于评估模型在未见过的数据上的表现。

    2. 目标:通过在开发集上的性能评估,选择最佳的模型配置,避免模型在训练集上过度拟合,确保模型的泛化能力。

  • 测试集(Test Set)

    1. 作用:测试集用于最终评估模型的性能,是在模型训练和调参完全完成后,用来衡量模型实际应用效果的一组数据。它是最接近真实世界数据的评估标准。

    2. 目标:提供一个公正、无偏见的性能估计,反映模型在未知数据上的泛化能力。

2-baseline 提升与思考
尝试提升

来试试看调整了参数的baseline:

按照速通手册一样走完流程,提交后对比前后分数并了解修改了什么。

分析两个版本baseline的差异,思考是什么影响了它们的效果。

(提问:提升了几倍?怎么提升的?为啥会提升?)

(再提一个小问题:大家在调整这两个变化的参数的时候有没有发现他似乎有一个“界”,如果发现了也可以思考思考为啥🤔🤔?)

参数解析

可以注意到修改了N和N_EPOCHS。

N:选择数据集的前N个样本进行训练。

N_EPOCHS:一次epoch是指将所有数据训练一遍的次数。

两者作用是将数据集中前N个样本抓取训练了N_EPOCHS轮。

如下图所示:

可以看到分数较第一次有所提高

3、最后附上学习规划表

;