项目简介
飞桨图像分类套件PaddleClas是飞桨为工业界和学术界所准备的一个图像分类任务的工具集,助力使用者训练出更好的视觉模型和应用落地。本文将对套件的代码进行全面解析,帮助开发者了解其结构组成和运行机制,并通过实际案例,详细解读PaddleClas的运行流程,助力开发者全面、深度、高效地使用套件开发项目。
一、PaddleClas套件的整体文件布局解析
PaddleClas 的主要文件布局整理如下图:
- configs 文件夹下存放训练脚本和验证脚本的yaml配置文件,文件按模型类别存放,quick_start文件夹下存放的是 demo 脚本。
- dataset 文件夹下存放预处理训练数据的脚本,负责将数据集处理为适合Dataloader处理的格式。
- docs 文件夹下存放中英文文档。
- deploy 文件夹存放的是编译、部署工具,有 Paddle Serveing 和 Paddle Lite 两种部署方式。
- ppcls 文件夹下存放PaddleClas框架主体。模型结构脚本、数据增强脚本、优化脚本等DL程序的标准流程代码都在这里。
- tools 文件夹下存放用于模型下载、训练、预测和部署的脚本。
- requirements.txt 文件用于安装 PaddleClas 的依赖项。使用pip进行升级安装使用。
其中 configs、ppcls、tools 三个文件夹最为关键,我们分别重点介绍:
1.configs文件夹
configs 文件夹下按模型类别分别存放了 yaml 初始化文件,用于设置超参。框架为各种模型各个型号都预设了适合的超参,真是贴心。当然,使用时还是要根据自己项目实际情况对超参进行调整。比如归一化训练集数据的超参 mean、std 就需要根据自己的数据集重新计算。
2.ppcls文件夹
- data 文件夹存下放处理数据的脚本,包括模型读取数据的 reader 和数据增广处理脚本。
- modeling 文件夹下存放模型结构及 loss 计算脚本。
- optimizer 文件夹下存放优化器超参(包括优化器种类,正则化项设置)和学习率设置脚本(包括学习率 warmup 和各种 decay 策略)。
- utils 文件夹下存放其他功能脚本(包括脚本参数解析、参数检查、模型存取、日志记录脚本)
3.tools文件夹
- download.py 是下载预训练模型的脚本。
- train.py 和eval.py 是训练和验证模型的脚本。
- ema.py 和ema_clean.py 是计算和清除指数移动均值的脚本,用于提升训练效果。
- export_model.py 和 export_serving_model.py 是转换和部署模型的脚本。
- infer 文件夹下放的是用于(persistable 模型)预测、(inference 模型)推理的脚本。
- program.py 是组装训练过程的脚本。train 过程由此脚本组装好后运行。
PaddleClas 的源码风格清晰、工整,非常好读。在对套件的整体结构有了一定的了解后,我们下面来了解它的工作流程。
二、PaddleClas 套件的训练流程代码解析
1.执行训练脚本
下面的代码启动模型训练过程:
# 进入PaddleClas工作目录
%cd /home/aistudio/PaddleClas/
# 加入系统环境目录
%env PYTHONPATH = .:$PYTHONPATH
# 设定执行GPU硬件
%env CUDA_VISIBLE_DEVICES = 0
# 运行训练脚本(并行)
!python -m paddle.distributed.launch \
--selected_gpus="0" \
tools/train.py \
-c ./configs/quick_start/ResNet50_vd.yaml
# 运行训练脚本(单进程)
!python tools/train.py \
-c ./configs/quick_start/ResNet50_vd.yaml
上面的代码同时给出了单进程和并行执行训练脚本的代码。如果具备分布式训练条件,通过 paddle.distributed.launch 并行运行训练过程可提高训练效率。
-c 参数指定训练过程读取的 yaml 参数设置文件,也可通过 -o 参数手动设置参数。-o 设置的参数优先级更高会覆盖 yaml 文件中的参数设置。
2.训练流程解析
训练流程从 tools/train.py 脚本的 main()函数开始执行。
def main(args):
#【*】设置全局默认generator的随机种子
paddle.seed(12345)
#【*】读取全局设置
config = get_config(args.config, overrides=args.override, show=True)
#【*】设置脚本运行在GPU还是CPU上
# assign the place
use_gpu = config.get("use_gpu", True)
place = 'gpu:{}'.format(ParallelEnv().dev_id) if use_gpu else 'cpu'
place = paddle.set_device(place)
#【*】设定训练过程是否启用并行方式
trainer_num = int(os.getenv("PADDLE_TRAINERS_NUM", 1))
use_data_parallel = trainer_num != 1
config["use_data_parallel"] = use_data_parallel
if config["use_data_parallel"]:
strategy = paddle.distributed.init_parallel_env()
#【*】定义模型对象
net = program.create_model(config.ARCHITECTURE, config.classes_num)
#【*】定义优化器和学习率策略
optimizer, lr_scheduler = program.create_optimizer(
config, parameter_list=net.parameters())
#【*】如设置了并行模式,则置模型并行训练
if config["use_data_parallel"]:
net = paddle.DataParallel(net, strategy)
#【*】读取预训练模型或自己存储的模型
# load model from checkpoint or pretrained model
init_model(config, net, optimizer)
#【*】定义训练集数据读取器
train_dataloader = Reader(config, 'train', places=place)()
#【*】如果设定了启用验证过程,则在主进程中执行验证过程
if config.validate and ParallelEnv().local_rank == 0:
valid_dataloader = Reader(config, 'valid', places=place)()
#【*】初始化epoch轮数和top准确率
last_epoch_id = config.get("last_epoch", -1)
best_top1_acc = 0.0 # best top1 acc record
best_top1_epoch = last_epoch_id
#【*】训练过程循环
for epoch_id in range(last_epoch_id + 1, config.epochs):
#【*】设置模型运行在训练模式下。
net.train()
#【*】调用program.py脚本的run()函数执行模型训练过程
# 1. train with train dataset
program.run(train_dataloader, config, net, optimizer, lr_scheduler,
epoch_id, 'train')
#【*】如果启用了验证过程,则在主进程中执行验证过程
if not config["use_data_parallel"] or ParallelEnv().local_rank == 0:
#【*】执行模型验证过程并打印、保存模型loss、准确率等信息
# 2. validate with validate dataset
if config.validate and epoch_id % config.valid_interval == 0:
#【*】设置模型运行在测试模式下,BN、DropOut等做不同处理。
net.eval()
#【*】执行验证过程前向计算并返回top准确率
top1_acc = program.run(valid_dataloader, config, net, None,
None, epoch_id, 'valid')
#【*】记录top准确率
if top1_acc > best_top1_acc:
best_top1_acc = top1_acc
best_top1_epoch = epoch_id
if epoch_id % config.save_interval == 0:
model_path = os.path.join(config.model_save_dir,
config.ARCHITECTURE["name"])
save_model(net, optimizer, model_path, "best_model")
#【*】打印top准确率
message = "The best top1 acc {:.5f}, in epoch: {:d}".format(
best_top1_acc, best_top1_epoch)
#【*】记录日志
logger.info("{:s}".format(logger.coloring(message, "RED")))
#【*】定期存储模型
# 3. save the persistable model
if epoch_id % config.save_interval == 0:
model_path = os.path.join(config.model_save_dir,
config.ARCHITECTURE["name"])
save_model(net, optimizer, model_path, epoch_id)
PaddleClas 的训练过程和所有分类模型训练过程一样,是一种格式化的“八股文”结构,都遵循“数据处理、定义模型、定义优化器、训练模型、存储模型”等固定步骤。PaddleClas 套件将这些步骤按功能封装在了一些函数和类中,分别存放到了以下7个脚本和1个配置文件中:
- <ppcls/utils/config.py>
- <configs/quick_start/ResNet50_vd.yaml>(yaml配置文件)
- <tools/program.py>
- <ppcls/modeling/architechtures/resnet_vd.py>
- <ppcls/optimizer/learning_rate.py>
- <ppcls/utils/save_load.py>
- <ppcls/data/reader.py>
- <ppcls/modeling/loss.py>
下图梳理了训练过程的“八股结构”和各脚本文件之间的调用关系(同一文件用相同颜色标注):
从上图我们了解到,训练过程大致有【读取参数设置】、【定义模型对象】、【定义优化器对象】、【读取模型】 、【定义数据读取器】、【执行模型训练、验证过程】、【存储模型】7个标准步骤(已标注了彩色序号)。下面我们就将这些文件展开,看看训练过程中所有函数和类的调用关系(和上图一样同一文件里的函数和类用相同颜色标注)。整个调用图是一个树状结构。执行各个函数或类方法的顺序就是这颗“调用关系树”从根节点(train.py 脚本的 main()函数)出发,执行深度优先遍历的顺序。同一个节点的子节点按从上到下的顺序遍历。先遍历父节点,后遍历子节点。
整个流程的主要的函数调用关系总结如下图:
整个训练过程的函数调用流程比较繁杂。我们分而治之,按照前面介绍的训练步骤的“八股结构”,逐个介绍 train()函数中各个步骤的“分枝”。
1)【读取模型训练、验证时的参数设置】
#【*】读取全局设置
config = get_config(args.config, overrides=args.override, show=True)
上面代码调用了 ppcls/utils/config.py 脚本下的 get_config() 函数来完成读取 yaml 文件参数和手工覆盖参数。实际上 get_config() 函数里的功能也进行了高度结构化的函数封装,详细的函数调用图是这样的:
只是,这些参数读取的代码本身与深度学习知识关系不大,很容易读,为了突出重点就没有在总的函数调用关系图中体现。
在调用 train.py 脚本进行训练时,我们用“-c ./configs/quick_start/ResNet50_vd.yaml”参数指定参数配置文件。本步骤就要读取 -c 参数指定的 yaml 文件中的参数配置信息。yaml 文件主要由“模型选择、设置”、“学习率”、“优化器”、“训练过程参数”和“验证过程参数”五个主要部分组成。
mode: 'train' # 当前所处的模式,支持训练与评估模式
ARCHITECTURE: # 【模型结构设置】
name: 'ResNet50_vd' # 指定使用分类模型的结构、配置,本例采用ResNet模型结构,50层的配置
checkpoints: "" # 载入上次保存的模型,不读取设为空值
pretrained_model: "" # 设定载入的预训练模型,不读取设为空值
load_static_weights: False # 读取静态图模型,只是兼容考虑,不推荐使用
model_save_dir: "./output/" # 模型保存目录
classes_num: 102 # 分类类别数
total_images: 1020 # 训练集的图像数量,用于设置学习率变换策略等。
save_interval: 1 # 模型保存间隔轮数(epoch数)
validate: True # 是否进行模型验证
valid_interval: 1 # 执行模型验证间隔轮数(epoch数)
epochs: 20 # 训练轮数
topk: 5 # 验证是除了输出top1,还输出top5准确率
image_shape: [3, 224, 224] # 训练集图片尺寸
LEARNING_RATE: #【学习率设置】
function: 'Cosine' # 设置学习率衰减为余弦衰减
params:
lr: 0.0125 # 初始学习率
OPTIMIZER: #【优化器设置】
function: 'Momentum' # 设置优化器为动量优化器 Momentum
params:
momentum: 0.9 # Momentum优化器的动量超参设为 0.9
regularizer:
function: 'L2' # 添加 L2 正则化项
factor: 0.00001 # 设置 L2 正则化项超参为 0.00001
TRAIN: #【训练过程设置】
batch_size: 32 # 训练batch_size大小
num_workers: 0 # 训练集DataLoader数据读取器使用的子进程数量,以并行读取数据。设为0为只有主进程
file_list: "/home/aistudio/data/data60139/train_list.txt" # 训练集图片列表
data_dir: "/home/aistudio/data/data60139/" # 训练集图片目录
shuffle_seed: 0 # 打乱训练数据顺序的随机数种子
transforms: # (图片转换、数据增强设置)
- DecodeImage: # (图片解码设置)
to_rgb: True # 用cv2读取图片时,数据为gbr模式,要将此项设为True
to_np: False # 是否将读取的数据转为numpy格式
channel_first: False # 有时要将读取的[B,H,W,N]格式数据转为Paddle需要的[B,N,H,W]
- ResizeImage:
size: [224, 224] # 改变图片尺寸大小为224×224
- RandFlipImage: # (随机擦除设置)
flip_code: 1 # 随机擦除模式设为第一种
- NormalizeImage: #(图片标准化设置)
scale: 1./255. # 缩放系数
mean: [0.485, 0.456, 0.406] # rgb各通道均值
std: [0.229, 0.224, 0.225] # rgb各通道标准差
order: ''
- ToCHWImage: # 有时要将读取的[B,H,W,N]格式数据转为Paddle需要的[B,N,H,W]
VALID: #【验证过程设置(参考训练过程设置)】可参考上面训练过程参数设置
batch_size: 20
num_workers: 0
file_list: "/home/aistudio/data/data60139/val_list.txt"
data_dir: "/home/aistudio/data/data60139/"
shuffle_seed: 0
transforms:
- DecodeImage:
to_rgb: True
to_np: False
channel_first: False
- ResizeImage:
resize_short: 256
- NormalizeImage:
scale: 1.0/255.0
mean: [0.485, 0.456, 0.406]
std: [0.229, 0.224, 0.225]
order: ''
- ToCHWImage:
完成yaml脚本的解析后,程序会通过 train.py 脚本的 -o 参数传入的设置,以更高的优先级覆盖通过 yaml 文件设定的参数。
这里介绍一个使用技巧:我们知道,在调用train.py脚本时可以用“-o”或“-override”参数覆盖 yaml 文件中的参数设置。格式如下
!python tools/train.py \
-c ./configs/quick_start/ResNet50_vd.yaml \
-o topk=2
上面我们使用“-o topk=2”覆盖了 topk 参数为 2 (yaml 文件中设置为5)。但是,前面介绍 yaml 文件结构时,我们看到 yaml 文件中的参数是“树形”存放的。如何设置子节点(比如 TRAIN 分支下)上的参数呢?ppcls/utils/config.py 脚本的 override_config() 函数的注释中例举了“-o VALID.transforms.1.ResizeImage.resize_short=300”的写法来设置子节点参数。修改前 yaml 文件中 VALID 分支下的 - ResizeImage 分支下的设置是这样的:
- ResizeImage:
size: [224, 224]
修改后相当于改成了这样:
- ResizeImage:
resize_short: 256
size: [224, 224]
注意:设置 -o 参数并不会改变 yaml 文件中的设置,只是在本次训练或预测时覆盖参数。
2)【定义模型对象】
#【*】定义模型对象
net = program.create_model(config.ARCHITECTURE, config.classes_num)
上面代码调用了 tools/program.py 脚本下的 create_model()函数,以定义模型对象 net,用于前向计算。下面看下 create_model() 函数的代码:
def create_model(architecture, classes_num):
"""
Create a model
Args:
architecture(dict): architecture information,
name(such as ResNet50) is needed
image(variable): model input variable
classes_num(int): num of classes
Returns:
out(variable): model output variable
"""
#【*】设定模型结构的名称、规格。本例中模型结构为resnet_vd,规格为50层,所以name赋值为“ResNet50_vd”
name = architecture["name"]
#【*】设定模型除规格外的其他辅助参数。本例中为空值
params = architecture.get("params", {})
#【*】返回定义的模型对象
return architectures.__dict__[name](class_dim=classes_num, **params)
这部分代码的最后一句“return architectures.dict[name](class_dim=classes_num, **params)”中,architectures(注意不是第一行的那个 architecture 参数,那个参数存储的是模型的名称)是 ppcls/modeling 文件夹下的一个包(是一个带 init.py 的文件夹),其通过 init.py 文件导入所有 PaddleClas 继承的模型结构对象。“architectures”通过“dict[name]”列表得到“architectures”中对应的成员类,再通过 “(class_dim=classes_num, **params)”传入的参数将该模型类实例化为对象,最后将模型结构对象返回用于训练。
这部分代码是 PaddleClas 分类套件为了解耦模型结构代码而“展示的技术”~~。PaddleClas 套件并没有将模型结构都写在一个文件里,而是将每种结构(比如 ResNet_vd)写入一个 py 文件,然后使用“all”将该结构的各种配置实例对象(比如"ResNet50_vd", “ResNet101_vd”, “ResNet152_vd”
]等)“暴露出来”,让“architectures”文件夹下的“init.py”文件可以方便的导入。这样做的好处是,日后添加新模型对象更加方便、清晰。
ResNet50
在本代码解析案例中我们采用了著名的 ResNet 模型结构50层的配置。ResNet 通过“跨层连接”的方式,使网络在无法继续通过增加层数来进一步提升性能时,跳过部分层。这样能够大大缓解深层网络中由于梯度爆炸、梯度消失导致的网络退化现象,能够实现成百上千层的网络,大大提升了网络性能。下面我们看看 ResNet 的结构,以及它究竟是如何实现“跨层”连接的。
从上面的ResNet结构图我们看到:各种层数配置的 ResNet 网络的“头”、“尾”都是相同的。都是开头先用一个7×7的卷积层提取纹理细节特征,最后接一个 GAP(将特征图降到1×1尺寸)和一个全连接层(对齐输出维度为分类数)。决定“ResNet18、ResNet34、ResNet50、ResNet101、ResNet152”等不同层数配置的是它们各自包括的“残差块”的数量。本项目中,我们分类采用的是 ResNet50 配置,包含A、B、C、D四种残差块的数量分别是3、4、6、3。每个残差块有三个卷积层,所以残差块里一共有(3+4+6+3)×3=48层网络。再加上开头的7×7卷积层和最后的全连接层,整个 ResNet 网络共50层,所以被称为 ResNet50。
下面先看下组成卷积网络的基本 ConvBNLayer 块的定义:
class ConvBNLayer(nn.Layer):
def __init__(self,
num_channels,
num_filters,
filter_size,
stride=1,
groups=1,
act=None,
name=None):
super(ConvBNLayer, self).__init__()
# 定义卷积层
self._conv = Conv2D(
in_channels=num_channels,
out_channels=num_filters,
kernel_size=filter_size,
stride=stride,
padding=(filter_size - 1) // 2,
groups=groups,
weight_attr=ParamAttr(name=name + "_weights"),
bias_attr=False)
if name == "conv1":
bn_name = "bn_" + name
else:
bn_name = "bn" + name[3:]
# 定义归一化层
self._batch_norm = BatchNorm(
num_filters,
act=act,
param_attr=ParamAttr(name=bn_name + "_scale"),
bias_attr=ParamAttr(bn_name + "_offset"),
moving_mean_name=bn_name + "_mean",
moving_variance_name=bn_name + "_variance")
def forward(self, inputs):
y = self._conv(inputs)
y = self._batch_norm(y)
return y
上面的 ConvBNLayer 块包含一个卷积层和一个针对 batch 进行的标准化化层,是卷积网络的“基本处理单元”。
下面看看构成 ResNet 网络的基本模块:
# bottle neck 残差块
class BottleneckBlock(nn.Layer):
def __init__(self,
num_channels,
num_filters,
stride,
shortcut=True,
name=None):
super(BottleneckBlock, self).__init__()
# 用于改变通道数的1×1卷积层
self.conv0 = ConvBNLayer(
num_channels=num_channels,
num_filters=num_filters,
filter_size=1,
act="relu",
name=name + "_branch2a")
# 用于提取特征的3×3卷积层
self.conv1 = ConvBNLayer(
num_channels=num_filters,
num_filters=num_filters,
filter_size=3,
stride=stride,
act="relu",
name=name + "_branch2b")
# 用于改变通道数的1×1卷积层
self.conv2 = ConvBNLayer(
num_channels=num_filters,
num_filters=num_filters * 4,
filter_size=1,
act=None,
name=name + "_branch2c")
# 用于跨层连接时改变通道数的1×1卷积层
if not shortcut:
self.short = ConvBNLayer(
num_channels=num_channels,
num_filters=num_filters * 4,
filter_size=1,
stride=stride,
name=name + "_branch1")
self.shortcut = shortcut
self._num_channels_out = num_filters * 4
def forward(self, inputs):
y = self.conv0(inputs)
conv1 = self.conv1(y)
conv2 = self.conv2(conv1)
if self.shortcut:
short = inputs
else:
short = self.short(inputs)
y = paddle.add(x=short, y=conv2)
y = F.relu(y)
return y
就是上面的“bottle neck 残差块”实现了ResNet跨层连接。残差块结构如下图:
- 在残差块里,提取特征的3×3卷积层的前后各有一个1×1的卷积层,通过这种方式改变卷积层的通道数可以大大降低参数量。
- 在普通的卷积层返回的是卷积计算的结果 F(x) ,而残差卷积层返回的是卷积计算结果 F(x) 与输入的特征图 x 的加和 F(x)+x 。这样做的好处是,在网络进行训练时,如果经过本卷积层并不能提升性能(甚至因为网络退化而降低性能),那么网络就会倾向于通过更新权重参数使F(x)计算结果趋近于0,那么本层的输出就近似是输入的特征图 x , 也就相当于网络计算“跨过了”本层,从而通过跨层连接缓解网络退化现象。
- 需要注意的是,由于bottle neck 残差块需要通过1×1卷积层实现降维,所以它的“short cut”分支也要经过一个1×1的卷积层,而不是直接返回特征图 x 本身。
下面我们看看如何使用上面介绍的“瓶颈残差块”组成大名鼎鼎的 ResNet 网络:
# ResNet网络结构
class ResNet(nn.Layer):
def __init__(self, layers=50, class_dim=1000):
super(ResNet, self).__init__()
self.layers = layers
supported_layers = [18, 34, 50, 101, 152]
assert layers in supported_layers, \
"supported layers are {} but input layer is {}".format(
supported_layers, layers)
# 选择ResNet的配置
if layers == 18:
depth = [2, 2, 2, 2]
elif layers == 34 or layers == 50:
depth = [3, 4, 6, 3]
elif layers == 101:
depth = [3, 4, 23, 3]
elif layers == 152:
depth = [3, 8, 36, 3]
num_channels = [64, 256, 512,
1024] if layers >= 50 else [64, 64, 128, 256]
num_filters = [64, 128, 256, 512]
# 用于提取图片纹理特征的7×7卷积层
self.conv = ConvBNLayer(
num_channels=3,
num_filters=64,
filter_size=7,
stride=2,
act="relu",
name="conv1")
self.pool2d_max = MaxPool2D(kernel_size=3, stride=2, padding=1)
# 根据层数配置添加 bottle net 残差块
self.block_list = []
if layers >= 50:
for block in range(len(depth)):
shortcut = False
for i in range(depth[block]):
if layers in [101, 152] and block == 2:
if i == 0:
conv_name = "res" + str(block + 2) + "a"
else:
conv_name = "res" + str(block + 2) + "b" + str(i)
else:
conv_name = "res" + str(block + 2) + chr(97 + i)
bottleneck_block = self.add_sublayer(
conv_name,
BottleneckBlock(
num_channels=num_channels[block]
if i == 0 else num_filters[block] * 4,
num_filters=num_filters[block],
stride=2 if i == 0 and block != 0 else 1,
shortcut=shortcut,
name=conv_name))
self.block_list.append(bottleneck_block)
shortcut = True
else:
for block in range(len(depth)):
shortcut = False
for i in range(depth[block]):
conv_name = "res" + str(block + 2) + chr(97 + i)
basic_block = self.add_sublayer(
conv_name,
BasicBlock(
num_channels=num_channels[block]
if i == 0 else num_filters[block],
num_filters=num_filters[block],
stride=2 if i == 0 and block != 0 else 1,
shortcut=shortcut,
name=conv_name))
self.block_list.append(basic_block)
shortcut = True
# 进行平均池化
self.pool2d_avg = AdaptiveAvgPool2D(1)
# 计算标准差用于初始化后面的全连接层
self.pool2d_avg_channels = num_channels[-1] * 2
stdv = 1.0 / math.sqrt(self.pool2d_avg_channels * 1.0)
# 最后用于输出分类结果的全连接层
self.out = Linear(
self.pool2d_avg_channels,
class_dim,
weight_attr=ParamAttr(
initializer=Uniform(-stdv, stdv), name="fc_0.w_0"),
bias_attr=ParamAttr(name="fc_0.b_0"))
def forward(self, inputs):
y = self.conv(inputs)
y = self.pool2d_max(y)
for block in self.block_list:
y = block(y)
y = self.pool2d_avg(y)
y = paddle.reshape(y, shape=[-1, self.pool2d_avg_channels])
y = self.out(y)
return y
定义好了模型结构类,下面我们就可以用它来声明模型对象了:
# 定义ResNet50配置的模型对象
def ResNet50(**args):
model = ResNet(layers=50, **args)
return model
上面的函数定义并返回了一个配置为50层的 ResNet 模型对象。然后,我们再用下面的代码“暴露”刚才定义的“模型对象”声明函数:
# 在“__all__”中使定义的模型对象可被其他脚本导入
__all__ = ["ResNet18", "ResNet34", "ResNet50", "ResNet101", "ResNet152"]
代码读到这里,您就了解了:为什么 yaml 文件中 ARCHITECTURE: 下的 name: 可以设置为‘ResNet50_vd’了。当然设置为‘ResNet101’也可以,但设为‘ResNet102’显然就不行了。
3)【定义优化器对象】
#【*】定义优化器和学习率策略
optimizer, lr_scheduler = program.create_optimizer(
config, parameter_list=net.parameters())
上面的代码调用了“program.py”脚本里的“create_optimizer()”函数,并根据传入的参数 config 返回了“optimizer”和“lr_scheduler”对象,用于优化模型。下面看下“create_optimizer()”函数的代码:
def create_optimizer(config, parameter_list=None):
#【*】输入的参数config为读取的yaml文件里的参数设置。
#【*】本函数需要使用yaml文件里“OPTIMIZER”和“LEARNING_RATE”分支下的参数设置。
#【*】本函数返回一个“优化器对象”和一个“学习率策略对象”。
"""
Create an optimizer using config, usually including
learning rate and regularization.
Args:
config(dict): such as
{
'LEARNING_RATE':
{'function': 'Cosine',
'params': {'lr': 0.1}
},
'OPTIMIZER':
{'function': 'Momentum',
'params':{'momentum': 0.9},
'regularizer':
{'function': 'L2', 'factor': 0.0001}
}
}
Returns:
an optimizer instance
"""
#【*】使用yaml文件中“LEARNING_RATE”分支下的参数设置定义一个“学习率策略”对象
# create learning_rate instance
lr_config = config['LEARNING_RATE']
lr_config['params'].update({
'epochs': config['epochs'],
'step_each_epoch':
config['total_images'] // config['TRAIN']['batch_size'],
})
lr = LearningRateBuilder(**lr_config)()
#【*】使用yaml文件中“OPTIMIZER”分支下的参数设置定义一个“优化器”对象
# create optimizer instance
opt_config = config['OPTIMIZER']
opt = OptimizerBuilder(**opt_config)
return opt(lr, parameter_list), lr
create_optimizer() 函数先通过 LearningRateBuilder 类创建一个学习率对象,然后根据这个学习率对象设置的学习率或学习率衰减策略,通过 OptimizerBuilder 类建立一个优化器对象并返回。
LearningRateBuilder 类的代码很简单:
class LearningRateBuilder():
"""
Build learning rate variable
https://www.paddlepaddle.org.cn/documentation/docs/zh/api_cn/layers_cn.html
Args:
function(str): class name of learning rate
params(dict): parameters used for init the class
"""
# 默认设置了线性学习率衰减策略,从0.1经过100次迭代逐步衰减至0.0
def __init__(self,
function='Linear',
params={'lr': 0.1,
'steps': 100,
'end_lr': 0.0}):
self.function = function
self.params = params
def __call__(self):
# 得到所有加载的模块
mod = sys.modules[__name__]
# 得到设置的学习率策略函数,并传入参数用于定义学习率对象
lr = getattr(mod, self.function)(**self.params)
return lr
LearningRateBuilder 类可以在初始化时通过 function 和 params 参数设置四种优化策略,分别是 Cosine、Piecewise、CosineWarmup 和 ExponentialWarmup,并由定义在 ppcls/optimizer/learning_rate.py 脚本里的四个同名类实现。
OptimizerBuilder 类则采用刚才定义优化策略对象作为参数定义优化器对象,代码如下:
class OptimizerBuilder(object):
"""
Build optimizer
Args:
function(str): optimizer name of learning rate
params(dict): parameters used for init the class
regularizer (dict): parameters used for create regularization
"""
# 默认采用动量优化器,动量超参为0.9,不使用正则化项
def __init__(self,
function='Momentum',
params={'momentum': 0.9},
regularizer=None):
self.function = function
self.params = params
# create regularizer
# -定义正则化项-
if regularizer is not None:
mod = sys.modules[__name__]
reg_func = regularizer['function'] + 'Decay'
del regularizer['function']
reg = getattr(mod, reg_func)(**regularizer)()
self.params['regularization'] = reg
def __call__(self, learning_rate, parameter_list):
# 得到所有加载的模块
mod = sys.modules[__name__]
# 得到优化器对象
opt = getattr(mod, self.function)
# 设置优化器对象的学习率策略、正则化项等参数并返回
return opt(learning_rate=learning_rate,
parameter_list=parameter_list,
**self.params)()
OptimizerBuilder 可以通过 ppcls/optimizer/optimizer.py 脚本中定义的 Momentum 类和 RMSProp 类返回“动量优化器”或 RMSProp 优化器,还可以通过 L1Decay 类和 L2Decay 类向优化器添加正则化项。实际上后面这几个定义优化器和正则化项的类只是给Paddle框架的优化器类和正则化项类“包了一层皮”。我们也可以直接使用 Paddle 框架其他的优化器类,比如 Adam、SGD 等。
4)【读取模型】
#【*】读取预训练模型或自己存储的模型
# load model from checkpoint or pretrained model
init_model(config, net, optimizer)
init_model() 是 ppcls/utils/save_load.py 脚本中的函数,代码如下:
def init_model(config, net, optimizer=None):
"""
load model from checkpoint or pretrained_model
"""
# -读取存储的模型-
checkpoints = config.get('checkpoints')
if checkpoints:
assert os.path.exists(checkpoints + ".pdparams"), \
"Given dir {}.pdparams not exist.".format(checkpoints)
assert os.path.exists(checkpoints + ".pdopt"), \
"Given dir {}.pdopt not exist.".format(checkpoints)
# 读取模型权重参数
para_dict = paddle.load(checkpoints + ".pdparams")
# 读取优化器参数
opti_dict = paddle.load(checkpoints + ".pdopt")
# 设置模型权重参数
net.set_dict(para_dict)
# 设置优化器参数
optimizer.set_state_dict(opti_dict)
logger.info(
logger.coloring("Finish initing model from {}".format(checkpoints),
"HEADER"))
return
# -读取预训练模型-
pretrained_model = config.get('pretrained_model')
# 读取“是否读取静态模型权重”
load_static_weights = config.get('load_static_weights', False)
# 读取“是否使用蒸馏”
use_distillation = config.get('use_distillation', False)
# 如果 pretrained_model 不为空,则读取预训练模型
if pretrained_model:
# 如果 pretrained_model 是一个列表(有多个预训练模型),则同时读取用于蒸馏的模型
if isinstance(pretrained_model,
list): # load distillation pretrained model
# 处理读取静态图模型的情况
if not isinstance(load_static_weights, list):
load_static_weights = [load_static_weights] * len(
pretrained_model)
load_distillation_model(net, pretrained_model, load_static_weights)
# 正常读取预训练模型,不采用蒸馏。
# 根据 load_static_weights 的设置,处理读取静态图模型的情况
else: # common load
load_dygraph_pretrain(
net,
path=pretrained_model,
load_static_weights=load_static_weights)
logger.info(
logger.coloring("Finish initing model from {}".format(
pretrained_model), "HEADER"))
初始化模型函数 init_model() 即可以用于读取自己保存的模型,也可以用于读取预训练模型。如果同时设置了yaml文件的 checkpoints 和 pretrained_model 项,则优先读取自己保存的模型。读取模型时对“是否采用蒸馏”和“是否读取静态图模型”做了相应处理。读取普通模型使用 load_dygraph_pretrain() 函数处理;如果采用蒸馏技术,则需分别读取“教师模型”和“学生模型”,使用 load_distillation_model() 函数处理。
ppcls/utils/save_load.py 脚本的 load_dygraph_pretrain() 函数代码如下:
def load_dygraph_pretrain(model, path=None, load_static_weights=False):
if not (os.path.isdir(path) or os.path.exists(path + '.pdparams')):
raise ValueError("Model pretrain path {} does not "
"exists.".format(path))
# 如果设置了 load_static_weights 为 True,则读取静态图模型
if load_static_weights:
pre_state_dict = load_program_state(path)
param_state_dict = {}
model_dict = model.state_dict()
# 分层读取静态图模型
for key in model_dict.keys():
weight_name = model_dict[key].name
if weight_name in pre_state_dict.keys():
print('Load weight: {}, shape: {}'.format(
weight_name, pre_state_dict[weight_name].shape))
param_state_dict[key] = pre_state_dict[weight_name]
else:
param_state_dict[key] = model_dict[key]
model.set_dict(param_state_dict)
return
# 读取动态图模型
param_state_dict = paddle.load(path + ".pdparams")
model.set_dict(param_state_dict)
return
load_dygraph_pretrain()函数读取模型时根据 load_static_weights 参数的设置,对读取动态图模型还是静态图模型做了相应处理。
ppcls/utils/save_load.py 脚本的 load_distillation_model() 函数代码如下:
def load_distillation_model(model, pretrained_model, load_static_weights):
logger.info("In distillation mode, teacher model will be "
"loaded firstly before student model.")
# 验证参数合法性
assert len(pretrained_model
) == 2, "pretrained_model length should be 2 but got {}".format(
len(pretrained_model))
assert len(
load_static_weights
) == 2, "load_static_weights length should be 2 but got {}".format(
len(load_static_weights))
teacher = model.teacher if hasattr(model,
"teacher") else model._layers.teacher
student = model.student if hasattr(model,
"student") else model._layers.student
# 读取教师模型
load_dygraph_pretrain(
teacher,
path=pretrained_model[0],
load_static_weights=load_static_weights[0])
logger.info(
logger.coloring("Finish initing teacher model from {}".format(
pretrained_model), "HEADER"))
# 读取学生模型
load_dygraph_pretrain(
student,
path=pretrained_model[1],
load_static_weights=load_static_weights[1])
logger.info(
logger.coloring("Finish initing student model from {}".format(
pretrained_model), "HEADER"))
load_distillation_model() 函数分别读取了教师模型和学生模型,读取操作复用了 load_dygraph_pretrain() 函数。
5)【定义数据读取器】
#【*】定义训练集数据读取器
train_dataloader = Reader(config, 'train', places=place)()
数据读取工作通过调用 ppcls/data/reader.py脚本里的 Reader 类定义的对象完成。Reader 类在进行数据读取后还要对数据进行归一化、数据增强和shuffle等处理。其中,数据增强和shuffle只在训练集数据上使用。我们看下Reader 类的代码:
class Reader:
"""
Create a reader for trainning/validate/test
Args:
config(dict): arguments
mode(str): train or val or test
seed(int): random seed used to generate same sequence in each trainer
Returns:
the specific reader
"""
def __init__(self, config, mode='train', places=None):
try:
self.params = config[mode.upper()]
except KeyError:
raise ModeException(mode=mode)
# -参数设置-
use_mix = config.get('use_mix') # 是否使用 mix up 数据增强
self.params['mode'] = mode # 处于训练模式还是验证或测试等模式
self.shuffle = mode == "train" # 训练模式下进行shuffle(打乱顺序)操作
# -设置针对整个 batch 数据进行的处理,如 mix up 数据增强-
self.collate_fn = None
self.batch_ops = []
if use_mix and mode == "train":
self.batch_ops = create_operators(self.params['mix'])
self.collate_fn = self.mix_collate_fn
self.places = places
def mix_collate_fn(self, batch):
# 执行针对整个 batch 的处理
batch = transform(batch, self.batch_ops)
# batch each field
# -将样本进行分组匹配-
slots = []
for items in batch:
for i, item in enumerate(items):
if len(slots) < len(items):
slots.append([item])
else:
slots[i].append(item)
return [np.stack(slot, axis=0) for slot in slots]
def __call__(self):
batch_size = int(self.params['batch_size']) // trainers_num
# 使用 Paddle 框架的 CommnDataset 类定义数据集对象
dataset = CommonDataset(self.params)
# -使用 Paddle 的 DataLoader 类定义数据读取器-
# 处于训练模式则分布式读取数据,其它模式则正常读取,并且不进行数据增强和shuffle操作
if self.params['mode'] == "train":
batch_sampler = DistributedBatchSampler(
dataset,
batch_size=batch_size,
shuffle=self.shuffle,
drop_last=True)
loader = DataLoader(
dataset,
batch_sampler=batch_sampler,
collate_fn=self.collate_fn,
places=self.places,
return_list=True,
num_workers=self.params["num_workers"])
else:
loader = DataLoader(
dataset,
places=self.places,
batch_size=batch_size,
drop_last=False,
return_list=True,
shuffle=False,
num_workers=self.params["num_workers"])
return loader
上面代码中需要注意的是:Reader 类的 mix_collate_fn() 方法进行的是针对一整个 batch 的数据增强处理,在 Reader 类的初始化函数里赋给 self.collate_fn 类成员变量,并且在 Reader 类的__call__() 方法中作为参数传入给 Paddle 框架的 DataLoader() 函数调用;而常见的针对单个样本进行的拉伸、翻转、遮挡等数据增强处理,是在 Reader 类的__call__() 方法中定义 CommonDataset 对象时进行的。下面我们看看 CommonDataset 类的代码:
class CommonDataset(Dataset):
def __init__(self, params):
# -进行参数设置,params存储的参数来自yaml文件-
self.params = params
self.mode = params.get("mode", "train") # 设置运行模式,默认为 train
self.full_lines = get_file_list(params) # 读取数据列表
self.delimiter = params.get('delimiter', ' ') # 读取数据列表采用的分隔符
self.ops = create_operators(params['transforms']) # 建立针对单个样本的数据增强处理序列
self.num_samples = len(self.full_lines) # 设置样本数量
return
def __getitem__(self, idx):
line = self.full_lines[idx] # 读取一条数据记录
img_path, label = line.split(self.delimiter) # 得到图片路径和标签
img_path = os.path.join(self.params['data_dir'], img_path) # 合成完整图片路径
with open(img_path, 'rb') as f: # 读取图片
img = f.read()
return (transform(img, self.ops), int(label)) # 进行针对当个样本的数据增强
def __len__(self):
return self.num_samples # 返回样本数量
CommonDataset 类是继承自 Paddle 框架的 Dataset 类,通过重载 getitem() 方法来读取数据(并进行针对单个样本的数据增强)。
通过阅读以上备份代码可知,读取数据的代码都封装在 ppcls/data/reader.py脚本里,通过 Dataset 类、DataLoader() 函数、DistributedBatchSampler() 函数等 Paddle 框架2.0版本的API实现。详细的使用说明请参考文档:https://www.paddlepaddle.org.cn/documentation/docs/zh/2.0-rc/guides/02_paddle2.0_develop/02_data_load_cn.html#id3
6)【执行模型训练、验证过程】
#【*】训练过程循环
for epoch_id in range(last_epoch_id + 1, config.epochs):
#【*】设置模型运行在训练模式下。
net.train()
#【*】调用program.py脚本的run()函数执行模型训练过程
# 1. train with train dataset
program.run(train_dataloader, config, net, optimizer, lr_scheduler,
epoch_id, 'train')
#【*】如果启用了验证过程,则在主进程中执行验证过程
if not config["use_data_parallel"] or ParallelEnv().local_rank == 0:
#【*】执行模型验证过程并打印、保存模型loss、准确率等信息
# 2. validate with validate dataset
if config.validate and epoch_id % config.valid_interval == 0:
#【*】设置模型运行在测试模式下,BN、DropOut等做不同处理。
net.eval()
#【*】执行验证过程前向计算并返回top准确率
top1_acc = program.run(valid_dataloader, config, net, None,
None, epoch_id, 'valid')
#【*】记录top准确率
if top1_acc > best_top1_acc:
best_top1_acc = top1_acc
best_top1_epoch = epoch_id
# 存储最佳模型
if epoch_id % config.save_interval == 0:
model_path = os.path.join(config.model_save_dir,
config.ARCHITECTURE["name"])
save_model(net, optimizer, model_path, "best_model")
#【*】打印top准确率
message = "The best top1 acc {:.5f}, in epoch: {:d}".format(
best_top1_acc, best_top1_epoch)
#【*】记录日志
logger.info("{:s}".format(logger.coloring(message, "RED")))
我们知道,模型训练是在大量 epoch 循环中完成的。由于,我们需要在模型训练的过程中观察训练状态(避免欠拟合、过拟合等问题),所以每个 epoch 循环中的处理除了“训练过程”外还包括“验证过程”。PaddleClas 在训练模型时,根据yaml文件的参数设定定期执行(也可关闭)验证过程。验证时会记录(用于VisualDL进行图形化展示)模型的loss、准确率数据并存储最佳模型的权重参数(以用于推理、部署)。
因为训练过程和验证过程都包含了“前向计算”等相同的步骤,所以都被封装到了 tools/program.py 脚本里的 run() 函数中,只需在训练和验证过程中分别调用即可。需要注意以下两点:
- 由于训练过程和验证过程中模型的BN、Dropout等操作有所不同,所以执行训练过程前要通过 Paddle 框架的 Layer.train() 函数(本项目中实例化为了 net 对象,所以执行 net.train())设置模型对象运行在 train 模式下。同样的道理,执行验证过程前也要执行一下 net.eval() 函数。
- 由于验证过程与训练过程不同,不需要执行梯度反向计算和参数更新,而需要计算准确率。那么在执行复用的 run() 函数时要通过参数来进行控制。
下面我们看下训练过程和验证过程都复用的run()函数:
def run(dataloader,
config,
net,
optimizer=None,
lr_scheduler=None,
epoch=0,
mode='train'):
"""
Feed data to the model and fetch the measures and loss
Args:
dataloader(paddle dataloader):
exe():
program():
fetchs(dict): dict of measures and the loss
epoch(int): epoch of training or validation
model(str): log only
Returns:
"""
# 设置loss、准确率的打印间隔,默认为10
print_interval = config.get("print_interval", 10)
# 设置是否进行mix up处理,只在训练过程中进行
use_mix = config.get("use_mix", False) and mode == "train"
# -建立训练信息列表,包括loss、学习率、执行时长、读取时长、topn准确率-
metric_list = [
("loss", AverageMeter(
'loss', '7.5f', postfix=",")),
("lr", AverageMeter(
'lr', 'f', postfix=",", need_avg=False)),
("batch_time", AverageMeter(
'batch_cost', '.5f', postfix=" s,")),
("reader_time", AverageMeter(
'reader_cost', '.5f', postfix=" s,")),
]
if not use_mix:
topk_name = 'top{}'.format(config.topk)
metric_list.insert(
1, (topk_name, AverageMeter(
topk_name, '.5f', postfix=",")))
metric_list.insert(
1, ("top1", AverageMeter(
"top1", '.5f', postfix=",")))
metric_list = OrderedDict(metric_list)
tic = time.time() # 设置记时开始
# -逐 Batch 执行训练(或验证)过程-
for idx, batch in enumerate(dataloader()):
metric_list['reader_time'].update(time.time() - tic) # 记录数据读取时长
batch_size = len(batch[0]) # 记录batch size
feeds = create_feeds(batch, use_mix) # 建立喂入的数据
fetchs = create_fetchs(feeds, net, config, mode) # 执行前向计算并返回结果
# -如果处于训练过程,则执行梯度反向传播计算和模型权重更新-
if mode == 'train':
# -梯度反向传播计算-
avg_loss = fetchs['loss']
avg_loss.backward()
# -更新模型权重参数并清空梯度-
optimizer.step()
optimizer.clear_grad()
metric_list['lr'].update(
optimizer._global_learning_rate().numpy()[0], batch_size)
# -根据设定的策略变更学习率-
if lr_scheduler is not None:
if lr_scheduler.update_specified:
curr_global_counter = lr_scheduler.step_each_epoch * epoch + idx
update = max(
0, curr_global_counter - lr_scheduler.update_start_step
) % lr_scheduler.update_step_interval == 0
if update:
lr_scheduler.step()
else:
lr_scheduler.step()
# -合成并记录(用于VisualDL)训练或验证信息-
for name, fetch in fetchs.items():
metric_list[name].update(fetch.numpy()[0], batch_size)
metric_list["batch_time"].update(time.time() - tic)
tic = time.time()
fetchs_str = ' '.join([str(m.value) for m in metric_list.values()])
if idx % print_interval == 0:
ips_info = "ips: {:.5f} images/sec.".format(
batch_size / metric_list["batch_time"].val)
if mode == 'eval':
logger.info("{:s} step:{:<4d}, {:s} {:s}".format(
mode, idx, fetchs_str, ips_info))
else:
epoch_str = "epoch:{:<3d}".format(epoch)
step_str = "{:s} step:{:<4d}".format(mode, idx)
logger.info("{:s}, {:s}, {:s} {:s}".format(
logger.coloring(epoch_str, "HEADER")
if idx == 0 else epoch_str,
logger.coloring(step_str, "PURPLE"),
logger.coloring(fetchs_str, 'OKGREEN'),
logger.coloring(ips_info, 'OKGREEN')))
# -本轮训练(或验证)结束,记录(用于VisualDL)相应信息-
end_str = ' '.join([str(m.mean) for m in metric_list.values()] +
[metric_list['batch_time'].total])
ips_info = "ips: {:.5f} images/sec.".format(
batch_size * metric_list["batch_time"].count /
metric_list["batch_time"].sum)
if mode == 'eval':
logger.info("END {:s} {:s} {:s}".format(mode, end_str, ips_info))
else:
end_epoch_str = "END epoch:{:<3d}".format(epoch)
logger.info("{:s} {:s} {:s} {:s}".format(
logger.coloring(end_epoch_str, "RED"),
logger.coloring(mode, "PURPLE"),
logger.coloring(end_str, "OKGREEN"),
logger.coloring(ips_info, "OKGREEN"), ))
# -如果处于验证过程,返回topn准确率-
# return top1_acc in order to save the best model
if mode == 'valid':
return metric_list['top1'].avg
run() 函数封装的功能主要是逐 Batch 喂入数据训练模型,定期记录日志(用于VisualDL)、打印训练情况和保存模型。根据传入的 mode 参数的不同设置(train、eval),选择是否执行反向计算、权重更新、学习率调整和返回准确率。其中,喂入模型的数据使用 create_feeds() 函数进行处理,而前向计算过程则封装在 create_fetchs() 函数中。我们先看 create_feeds() 函数:
def create_feeds(batch, use_mix):
image = batch[0] # 将 batch 列表里的第0个元素赋值给图片变量
# 如果启用了 mix up 数据增强,则返回图片的同时要返回进行混合的两张图片 y_a
# 和 y_b 的标签,以及它们的混合比例 lam
if use_mix:
y_a = to_tensor(batch[1].numpy().astype("int64").reshape(-1, 1))
y_b = to_tensor(batch[2].numpy().astype("int64").reshape(-1, 1))
lam = to_tensor(batch[3].numpy().astype("float32").reshape(-1, 1))
feeds = {"image": image, "y_a": y_a, "y_b": y_b, "lam": lam}
# 如果没有启用 mix up 数据增强,则返回图片和对应标签即可
else:
label = to_tensor(batch[1].numpy().astype('int64').reshape(-1, 1))
feeds = {"image": image, "label": label}
return feeds # 返回喂入模型的训练数据
create_feeds() 函数的功能是将读取的数据格式化为字典类型,启用 mix up 时要将标签也“按比例混合”。我们再看看 create_fetchs() 函数:
def create_fetchs(feeds, net, config, mode="train"):
"""
Create fetchs as model outputs(included loss and measures),
will call create_loss and create_metric(if use_mix).
Args:
out(variable): model output variable
feeds(dict): dict of model input variables.
If use mix_up, it will not include label.
architecture(dict): architecture information,
name(such as ResNet50) is needed
topk(int): usually top5
classes_num(int): num of classes
epsilon(float): parameter for label smoothing, 0.0 <= epsilon <= 1.0
use_mix(bool): whether to use mix(include mixup, cutmix, fmix)
Returns:
fetchs(dict): dict of model outputs(included loss and measures)
"""
architecture = config.ARCHITECTURE # 设置模型结构,本项目为Resnet50_vd
topk = config.topk # 设置精确度 top n 的 n,一般是5
classes_num = config.classes_num # 设置分类数
epsilon = config.get('ls_epsilon') # 设置防止除0的附加项
use_mix = config.get('use_mix') and mode == 'train' # 设置是否使用 mix up 数据增强
use_distillation = config.get('use_distillation') # 设置是否使用蒸馏
out = net(feeds["image"]) # 输入图片执行前向计算,并返回结果
fetchs = OrderedDict() # 排序模型训练信息
# 设定损失函数
fetchs['loss'] = create_loss(feeds, out, architecture, classes_num,
epsilon, use_mix, use_distillation)
# 更新模型准确率 top k 信息
if not use_mix:
metric = create_metric(out, feeds["label"], architecture, topk,
classes_num, use_distillation)
fetchs.update(metric)
return fetchs
create_fetchs() 函数里首先执行模型的前向计算过程,然后利用计算结果通过 create_loss() 函数设置优化模型的损失函数,再通过 create_metric() 函数得到 top k 准确率信息并将其返回。create_metric() 函数很简单,就是通过 Paddle 框架的 paddle.metric.accuracy() 函数计算 top k 准确率。我们着重看下设置损失函数的 create_loss() 函数:
def create_loss(feeds,
out,
architecture,
classes_num=1000,
epsilon=None,
use_mix=False,
use_distillation=False):
"""
Create a loss for optimization, such as:
1. CrossEnotry loss
2. CrossEnotry loss with label smoothing
3. CrossEnotry loss with mix(mixup, cutmix, fmix)
4. CrossEnotry loss with label smoothing and (mixup, cutmix, fmix)
5. GoogLeNet loss
Args:
out(variable): model output variable
feeds(dict): dict of model input variables
architecture(dict): architecture information,
name(such as ResNet50) is needed
classes_num(int): num of classes
epsilon(float): parameter for label smoothing, 0.0 <= epsilon <= 1.0
use_mix(bool): whether to use mix(include mixup, cutmix, fmix)
Returns:
loss(variable): loss variable
"""
# 如果模型结构采用了GoogLeNet,需要对返回三部分loss,所以使用专用的 GoogLeNetLoss 类对象处理
if architecture["name"] == "GoogLeNet":
assert len(out) == 3, "GoogLeNet should have 3 outputs"
loss = GoogLeNetLoss(class_dim=classes_num, epsilon=epsilon)
return loss(out[0], out[1], out[2], feeds["label"])
# 如果采用了模型蒸馏技术,则要计算教师模型和学生模型各个类别概率分布的JS散度
if use_distillation:
assert len(out) == 2, ("distillation output length must be 2, "
"but got {}".format(len(out)))
loss = JSDivLoss(class_dim=classes_num, epsilon=epsilon)
return loss(out[1], out[0])
# 如果使用了 mix up 数据增强,则计算 loss 时,要对进行混合的两张图片的
# 分类交叉熵损失按比例加和处理
if use_mix:
loss = MixCELoss(class_dim=classes_num, epsilon=epsilon)
feed_y_a = feeds['y_a']
feed_y_b = feeds['y_b']
feed_lam = feeds['lam']
return loss(out, feed_y_a, feed_y_b, feed_lam)
# 其它情况下直接计算分类的交叉熵损失
else:
loss = CELoss(class_dim=classes_num, epsilon=epsilon)
return loss(out, feeds["label"])
create_loss() 函数对“采用GoogLeNet结构”、“采用模型蒸馏技术”和采用“Mix Up数据增强”三种情况和普通的“直接求交叉熵损失”的情况共四种情况,分别使用 GoogLeNetLoss、JSDivLoss、MixCELoss 和 CELoss 四个类进行相应的处理以设定合适的损失函数。这四个类定义在 ppcls/modeling/loss.py 脚本里。
7)【存储模型】
...
# 存储最佳模型
if epoch_id % config.save_interval == 0:
model_path = os.path.join(config.model_save_dir,
config.ARCHITECTURE["name"])
save_model(net, optimizer, model_path, "best_model")
...
#【*】定期存储模型
# 3. save the persistable model
if epoch_id % config.save_interval == 0:
model_path = os.path.join(config.model_save_dir,
config.ARCHITECTURE["name"])
save_model(net, optimizer, model_path, epoch_id)
...
在 train.py 脚本中,执行 epoch 循环时会定期存储模型。如果设置了“执行验证过程”的话,还会在验证过程中存储最佳模型。这都是通过 ppcls/utils/save_load.py 脚本下的 save_model() 函数实现的。我们看下函数代码:
def save_model(net, optimizer, model_path, epoch_id, prefix='ppcls'):
"""
save model to the target path
"""
# -设置模型存储路径-
model_path = os.path.join(model_path, str(epoch_id))
_mkdir_if_not_exist(model_path)
model_prefix = os.path.join(model_path, prefix)
paddle.save(net.state_dict(), model_prefix + ".pdparams") # 存储模型权重参数
paddle.save(optimizer.state_dict(), model_prefix + ".pdopt") # 存储优化器参数
logger.info(
logger.coloring("Already save model in {}".format(model_path),
"HEADER"))
模型存储是通过 Paddle 框架的 paddle.save() 函数实现的,存储的是模型的 persistable 版本,便于继续训练。注意:优化器参数也是需要存储的。
至此,我们已经将 PaddleClas 分类套件的训练过程全面、系统的进行了一次梳理。下面我们来看看推理过程。