Yolov5如何在训练意外中断后接续训练
1.配置环境
操作系统:Ubuntu20.04
CUDA版本:11.4
Pytorch版本:1.9.0
TorchVision版本:0.7.0
IDE:PyCharm
硬件:RTX2070S*2
2.问题描述
在训练YOLOv5时由于数据集很大导致训练时间十分漫长,这期间Python、主机等可能遇到死机的情况,如果需要训练300个epoch但是训练一晚后发现在200epoch时停下是十分崩溃了,好在博主摸索到在yolov5中接续训练的方法了。
3.解决方法
首先直接上方法
3.1设置需要接续训练的结果
如果你想从上一次训练结果中回复训练,那么首先保证你的训练结果(一般都存放在/runs/train
目录下)在保存目录中代号为最大的。
如上图所示,在train文件夹下一共有14个训练结果,假设我的第12次训练中断了,想接着第12次的结果继续训练,那么只需要将比12
更大的:exp13、exp14
这两个文件夹删除或者移动到其他地方,这样便设置好了需要接续训练的结果。