Bootstrap

昇思25天学习打卡营第5天|Vision Transformer图像分类

使用ViT模型进行图像分类,ViT模型的主体结构是基于Transformer模型的Encoder部分,但是Normalization部分进行了位置上的调整,最主要的结构依然是Multi-head Attention结构

设置损失函数、优化器、回调函数等,进行模型训练 训练完成之后使用ImageFolderDataset、CrossEntropySmooth和Model等接口进行模型验证

;