Bootstrap

YOLO v4 实现目标检测详细教程

 

目录

前言

一、YOLO V4算法介绍

1.1 YOLOv4结构图

二、YOLO V4项目实现

2.1下载源代码,保存并解压

2.2下载训练的图片集

2.3利用label标注图片集

2.4将项目导入 Pycharm

2.5pycharm 环境配置

2.6运行yolo.py

2.7运行voc_annotation.py

2.8运行train.py

2.9运行predict.py

三、总结

3.1结果图片展示

3.2实验分析

3.3总结 


前言

YOLOv4,作为物体检测领域的杰出代表,以其卓越的性能和广泛的应用受到了广泛关注。本文将详细解析YOLOv4的原理,带您深入了解其背后的技术原理和设计思路。

一、YOLO V4算法介绍

YOLOv4的算法原理主要基于深度学习,特别是卷积神经网络(CNN),以实现高精度和高效率的物体检测。其核心原理可以概括为构建一个端到端的物体检测模型,该模型充分利用多尺度特征和多层次特征融合的方式进行物体检测。

1.1 YOLOv4结构图

具体来说,YOLOv4的算法流程可以分为以下几个关键部分:

  1. 输入端:通常包含图片预处理阶段,例如将输入图像缩放到网络所需的输入大小,并进行归一化等操作,以便模型能够更有效地处理图像数据。
  2. Backbone网络:主要是分类网络,用于提取通用的特征表示。在YOLOv4中,采用了CSPDarkNet53作为基准网络。这个网络结构通过使用Mish激活函数代替原始的ReLU激活函数,以及增加Dropblock模块,来进一步提升模型的泛化能力。
  3. Neck网络:进一步提升特征的多样性和鲁棒性。YOLOv4利用SPP(空间金字塔池化)模块来融合不同尺度大小的特征图,同时使用自顶向下的FPN(特征金字塔网络)特征金字塔与自底向上的PAN(路径聚合网络)特征金字塔,以增强网络的特征提取能力。
  4. Head网络:用于完成目标检测结果的输出。在YOLOv4中,使用了CIOU_Loss来代替Smooth L1 Loss函数,以及DIOU_nms来代替传统的NMS(非极大值抑制)操作,这些改进有助于进一步提高算法的检测精度。

除了上述的核心结构,YOLOv4还采用了一系列称为“bag of freebies”(BoF)和“bag of specials”(BoS)的方法和技巧。BoF是指那些只改变训练策略或增加训练成本,但不增加推理成本的方法。而BoS是指那些只会少量增加推理成本,但能显著提高目标检测精度的模块和后处理方法。这些方法和技巧的引入,使得YOLOv4在保持高效率的同时,实现了更高的检测精度。

总的来说,YOLOv4通过结合深度学习和计算机视觉的最新技术,构建了一个强大而高效的物体检测模型,适用于各种复杂场景下的物体检测任务。

二、YOLO V4项目实现

2.1下载源代码,保存并解压

 ​​​​ 

2.2下载训练的图片集

  • 在网页搜索自己想要标注的jpg图片通过图片下载扩展批量下载至“yolov4-pytorch-master\yolov4-pytorch-master\VOCdevkit\VOC2007\JPEGImages”中
  • 注意:下载图片不得少于100张
  • 下载的图片必须是jpg格式的图片

  

2.3利用label标注图片集

  • 快捷键W,开始进行标注,对准要标记的人物或物品,进行标注;标注完成之后,会出现标注提示框,输入标注的属性,例如:pandas,点击OK,完成标注

  • 标注完每张图片后点击File中的save as后选择保存的文件夹("yolov4-pytorch-master\yolov4-pytorch-master\VOCdevkit\VOC2007\Annotations"),保存的图片格式为xml

2.4将项目导入 Pycharm

  • pycharm下载网址(python IDE): https://www.jetbrains.com/pycharm/
  • anaoconda下载网址:https://www.anaconda.com/
  • 安装好上述两个必备软件后,打开pycharm
  • 将本地的 yolov4项目解压至 Pycharm 的 Project 项目中,Pycharm 自动识别后会完成项目加载。
  • 如下图所示,已完成 yolov4 项目的导入,进入 File 下的 Settings 进行 python 解释器设置。

2.5pycharm 环境配置

  • 检查是否正确安装好anaconda,windows+r打开cmd(或者打开conda promot ),输入 :“conda --version”。若出现版本号,则安装成功。

  • 选择 Settings 中的 Project 下的 Python interpreter,点击右上角的设置选择 add interpreter添加,选择anaoconda环境。

  • 如果运行中还缺少其他库,Windows+R后输入 cmd进入命令提示符利用:pip install 库名 -i 镜像源网址

2.6运行yolo.py

  •  使用自己训练好的模型进行预测一定要修改model_path和classes_path!
  •  model_path指向logs文件夹下的权值文件,classes_path指向model_data下的voc_classes.txt
  • 训练好后logs文件夹下存在多个权值文件,选择验证集损失较低的即可。
  • 验证集损失较低不代表mAP较高,仅代表该权值在验证集上泛化性能较好。
  • 如果出现shape不匹配,同时要注意训练时的model_path和classes_path参数的修改

2.7运行voc_annotation.py

  • 此步骤读取我们2.2保存的图片

2.8运行train.py

  • 在运行前需要安装tensorboard,在anaconda prompt中输入:pip install tensorboard -i https://pypi.tuna.tsinghua.edu.cn/simple gevent
  • 如训练次数太多可修改198行中的训练次数,数据集小时训练次数应该不少于300次
  • 要注意的是自己训练的图片至少要100张以上,否则会出现数据集过小无法正常训练

  • 运行train.py

2.9运行predict.py

  • 输入图片位置要去掉引号


三、总结

3.1结果图片展示

3.2实验分析

  • 在训练过程中,模型损失逐渐降低。通过观察训练曲线,可以发现模型在训练后期趋于稳定,表明模型已经收敛

  • mAP就是把所有的类别的AP都算出来然后求个均值
  • map的图形呈锯齿状说明原始数据的质量和精度较低,大家可寻找精度更高的数据集

3.3总结 

本次实验虽然取得了一定的成果,但仍存在一些局限性。首先,实验所采用的数据集可能存在一定的偏差和局限性,这可能对模型的性能评估产生影响。为了更准确地评估模型的性能,我们需要使用更大规模、更具代表性的数据集进行训练和测试。其次,实验环境的配置也可能对实验结果产生影响。例如,不同的硬件设备和软件版本可能导致模型训练速度和性能的差异。因此,在后续的研究中,我们需要更加关注实验条件的统一性和可重复性。

;