在解释train from scratch(有说简称为TFS),即从头训练前,先说一下剪枝中的one-shot剪枝(一次剪枝)常见流程:
训练一个大模型 -> 在大模型中剪枝 -> 微调/从头训练
对于剪枝后的模型如何恢复精度目前有好几种方案:
- 从头训练(Trrain From Scratch):指只保留剪枝后的模型的结构,而不使用其剪枝后的权重。并随机初始化权重,再进行训练(通常使用和训练大模型时相同的学习率计划)。
- 微调(Finetune):剪枝后的模型使用小学习率继续训练。
在解释train from scratch(有说简称为TFS),即从头训练前,先说一下剪枝中的one-shot剪枝(一次剪枝)常见流程:
训练一个大模型 -> 在大模型中剪枝 -> 微调/从头训练
对于剪枝后的模型如何恢复精度目前有好几种方案:
道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。