Bootstrap

图像识别-目标检测项目

目标检测

识别图片中有哪些物体并且找到物体的存在位置

         多任务:位置 + 类别

        目标种类与数量繁多的问题

        目标尺度不均的问题

        遮挡、噪声等外部环境干扰

目标检测的数据集

VOC数据集

VOC数据集:PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛。

        4 大类,20小类

        VOC 2007:9963图片 /24640目标

        VOC 2012:23080图片 /54900目标

COCO数据集

COCO数据集:起源于微软2014年出资标注的MS COCO数据库。

         包含20万个图像

        80个类别

        超过50万个目标标注

        平均每个图像的目标数是7.2

目标检测的Ground Truth

 类别+真实边界框坐标(x,y,w,h)

假设上图尺寸为1000*800p

        YOLO(TXT)格式:(x,y,w,h)分别代表中心点坐标和宽、高x,y,w,h均为归一化结果

        COCO(JSON)格式:(Xmin, Ymin, W, H),其中x,y,w,h均不是归一化后的数值,分别代表左上角坐标和宽、高

        VOC(XML)格式:(Xmin,Ymin,Xmax,Ymax)分别代表左上角和右下角的两个坐标。

目标检测的评估指标

  • 目标检测的评估指标包括查准率(P)、查存率(R)、准确率(ACC)等。
  • 引入了交并比(IoU)来评估框框绘制的准确性。

IoU:Intersection over Union

        生成的预测结果会非常多

        首先过滤掉低类别置信度的检测结果

        使用IoU作为边界框正确性的度量指标

②检测结果的类别

        Precision:准确率,查准率

        Recall:召回率,查全率

        P-R曲线

        mean AP:每个类别所得到的AP的均值

        Average Precision:11点法、近似面积法

④mean和average

mean:算数平均

average:包含其他的度量指标

Average P:P值需要设计度量规则让它均衡mean AP:AP够均衡了,直接mean即可

⑤AP计算方法

AP计算方法:11点法

⑥案例

1️⃣

        ①根据IoU划分TP或者FP

2️⃣

        ②按置信度的从大到小,计算P和R

        ③绘制P-R曲线,进行AP计算

根据IOU阈值判断预测框是TP(True Positive)还是FP(False Positive)。

目标检测的传统方法

滑动窗口法

        需要人工设计尺寸

        大量冗余

        操作定位不准确

目标检测的深度学习方法

①anchor box

        

        anchor box用ratio+scale描述 

        feature map的点来决定位置

        scale来表示目标的大小(面积大小)

②anchor-base和anchor-free

anchor-base

        anchor-base是自顶向下的类似于传统方法,滑动窗口法穷举出许多,然后再根据置信度之类的进行筛选

anchor-free

        anchor-free是自底向上的

        想办法自动生成,不穷举

        free掉了anchor的预设过程

③one stage和two stage算法流程

1️⃣one stage算法流程

        

2️⃣ two stage算法流程

        常见one stage算法

                YOLO系列:YOLO v1-v5  (YOLO 11不一定比YOLO 8好,因为过拟合和欠拟合方面的原因,模型选择应遵循简单有效原则,避免过拟合,不同数据集适合不同的模型,没有绝对的“最好”模型)

                SSD系列:SSD、DSSD、FSSD

                其他经典:RefineDet

        常见two stage算法

                经典发展线:R-CNN、SPP-Net、Fast R-CNN、 Faster R-CNN

                其他:Cascade R-CNN、Guided Anchoring                

④非极大值抑制(Non-maximum suppression,NMS)

设定目标框的置信度阈值,常用的阈值是0.5左右

根据置信度降序排列候选框列表

选取置信度最高的框A添到输出列表,将其从候选框列表删除

候选框列表中的所有框依次与A计算IoU,删除大于阈值的候选框

重复上述过程,直到候选框列表为空,返回输出列表

(筛选候选框,确保每个物体只有一个预测框。)

;