文章目录
前言
上一篇文章我们讨论了yolov3
,yolov3
在速度与精度上达到了一个较好的平衡,堪称经典之作,可惜在yolov3
之后的原作者Joseph Redmon
因为yolo
的军事应用和对他人个人隐私风险而退出了yolo
系列的研究,从此cv
界痛失一员大将.但是经典之作总会源远流长,即使yolo
原作者Joseph Redmon
退出了研究,yolo
算法巨大的影响力使得其他的研究者对yolo
算法进行进一步讨论研究与发展,由此衍生出yolov3SPP
,yolov4
,yolov5
等等一系列的算法,今天我们要讨论的是yolov4
在yolov3
的基础上做出的一些改动.v3
PS:如果是小白,建议看一看上一篇yolov3中的相关基础知识.
一、Yolov4网络结构
相对于yolov3,yolov4的改动还是比较多的,在网络结构方面主要的改动是修改了Backbone中的残差模块,在backbone后面又添加SPP模块,PAN与Yolo Head模块与yolov3基本一致,话不多说,直接上图.
1.backbone:CSP Darknet-53
与Darknet53
相比的第一点小改动,残差层之前的2层conv+bn+Relu
变成了一层的conv+bn+Mish
,主要原因是把Darknet53
中残差层之上用来下采样的3x3
卷积放入了Resblock_body
中.
第二点则是对Residual_block
的改进,Darknet53
中的残差结构与resnet
的结构基本相同,但在CSPDarknet53
中提出了一种性能更好的残差结构,如下图所示:
对输入的feature map
分别进行两次1x1
卷积生成Part1
与Part2
,将Part1
输入n
个Residual
结构中,最后将提取出的特征图与Part2
在通道上拼接在一起,每经过一个Resblock_body
通道数增加一倍,这种新的残差结构建立了一个大的残差边,这个大的残差边绕过了很多的残差结构,整个CSPDarknet
的结构块,可看作一个大的残差块+内部多个小的残差块.
2.SPP池化
yolov4
中新增了SPP
池化,它借鉴了SPPnet
的结构,但也不是完全相同.具体结构如下图
SPPnet
主要解决的问题:
1.有效避免了R-CNN
算法对图像区域剪裁、缩放操作导致的图像物体剪裁不全以及形状扭曲等问题
2.解决了卷积神经网络对图像重复特征提取的问题,大大提高了产生候选框的速度,且节省了计算成本。
而yolo
中的SPP
通过三个不同大小的MaxPooling
层进行特征提取,获取到不同感受野大小的三个额外特征图,然后再将得到的特征图拼接在一起,这样使得经过SPP获取得到的特征图具有不同的感受野,特征图包含的信息更全面,另外一方面,Maxpooling
层提取kernel_size
大小的滑动窗口中最大的值,而上下文语义特征指的是多个相邻的像素点所组成的物体轮廓,个人认为,Maxpooling
的滑动窗口提取相邻区域的最大值有一定的特征提取作用,因为都是邻近区域的最大值,所以可能在提取目标轮廓上有一定的促进作用,也就是说,SPP
模块可能还增强特征图的上下文特征,但是Maxpooling
层的局限性在于丢失大量信息,在使用pooling
层还是conv
层降图片尺度时我们需要考虑哪一种更适合自己的网络,但最近的很多网络都使用conv
代替了pooling
,如何减少信息丢失?这是一个值得思考的问题.
3.PAN和Yolo head
PANet
对应Neck模块,是FPN
的改进版本,FPN
主要方法是自顶向下对浅层大尺度特征图进行下采样与深层特征图进行特征融合,输出多个不同尺度的特征图进行预测,PANet
在此基础之上增加了对深层特征图的上采样操作,将深层小尺度特征图上采样后concat
在一起,提出了一种自顶向下+自底向上的特征融合方式。
PANet
可以被看作一个Multiple-input-multiple-output encoder
.它对网络性能影响最大的主要有两个方面:
(1) 多尺度特征融合.
(2) 分而治之:简而言之就是输出多个不同尺度具有不同感受野特征图.
对于这两个影响因素谁更重要,可以参考论文YOLOF(You Only Look One-level Feature ),该论文针对提出了一种single-input-single-output
的encoder
,通过在残差模块中堆叠膨胀卷积使得单级特征图具有更大的感受野,在保证精度的前提下减少了encoder
的参数量.
在PAN
的论文中特征图融合用的是将两个特征图直接add
的方法,但是yolov4
中将之改为concat
,为什么要改呢?
对于特征图融合的两种方法的理解:
add
:将两个特征图直接相加,是resnet
中的融合方法,基于这种残差堆叠相加,可以有效地减小因为网络层数加深而导致的cnn网络退化问题.add
改变特征图像素值,并没有完全保留原本特征图信息,更多的可以看作对原特征图信息的一种补充,深层特征图在卷积过程中丢失了许多细节信息,通过add
的方式得以补全,是在二维的平面上对特征图的增强.因此我认为add
在进行图像特征增强时使用最佳.concat
:将两个特征图在通道数方向叠加在一起,原特征图信息完全保留下来,再对原特征图增加一些我们认为是较好的特征图,丰富了特征图的多样性,是在空间上对原特征图的增强,这样在下一次卷积的过程中我们能得到更好的特征图.
Yolo head
结构与yolov3
中基本一致,此处不再多写.
二、改进点
1.Mosaic数据增强
从数据集中随机选取四张图片,进行随机裁剪,缩放,色域变换等等,最后将四张图拼接在一起
作者表示Mosaic数据增强
的优点是丰富了检测物体的背景和小目标
,并且在计算Batch Normalization
的时候一次会计算四张图片的数据,使得mini-batch
大小不需要很大,一个GPU就可以达到比较好的效果。
简而言之,当batch_size=1
,正常我们只读取1张图片作为训练处理,而Mosaic将4张图片拼接起来使得网络同时处理四张图片,相当于将batch_size放大了4倍
,因为图片输入的尺寸不能改变,所以原图片一般都是经过缩小再拼接的,这就导致原本可能大目标的物体变成中目标或者小目标
,变相增加了网络训练过程中的小目标数量,因此在检测小目标精度将会得到提升.
2.anchor偏移机制
yolov3
中对anchor
中心点偏移量
(
t
x
,
t
y
)
(t_x,t_y)
(tx,ty)和先验框缩放量
(
t
w
,
t
h
)
(t_w,t_h)
(tw,th)进行了限制,使得anchor中心点的偏移量在
[
0
,
1
]
[0,1]
[0,1]之间,这样大大减少了anchor
中心点偏移过远导致召回率和精度过低.
yolov4中考虑了sigmoid函数的局限性,并对anchor
中心点偏移量
(
t
x
,
t
y
)
(t_x,t_y)
(tx,ty)的进一步限制,下图所示
(
c
x
,
c
y
c_x,c_y
cx,cy) 网格左上角坐标
(
P
w
,
P
h
P_w,P_h
Pw,Ph) 先验框宽与高
(
b
x
,
b
y
b_x,b_y
bx,by) Anchor最终坐标
(
b
w
,
b
y
b_w,b_y
bw,by) 最终预测框宽与高
由上图可知,yolov4
在处理anchor
的偏移量(
t
x
,
t
y
t_x,t_y
tx,ty)的公式于yolov3
不大一样,因为sigmoid
函数在x
趋近于
+
∞
+∞
+∞与
−
∞
-∞
−∞的时候才能无限接近于1
,这就导致某些中心点在网格顶点的目标无法较好的被预测到,因此我们想到添加一个除了
σ
(
x
)
\sigma(x)
σ(x)之外的限制参数
s
c
a
l
e
scale
scale,使得偏移量的值域增大到1
以上,从而使得某些中心点在网格顶点的目标也能得到较好得回归效果.在我们平时搭建网络过程中,
s
c
a
l
e
scale
scale一般取为2
的时候效果较好.所以公式可以简化为:
b
x
=
(
2
∗
σ
(
t
x
)
−
0.5
)
+
c
x
b_x =(2*\sigma(t_x)-{0.5})+c_x
bx=(2∗σ(tx)−0.5)+cx
b
y
=
(
2
∗
σ
(
t
y
)
−
0.5
)
+
c
y
b_y =(2*\sigma(t_y)-{0.5})+c_y
by=(2∗σ(ty)−0.5)+cy
b
w
=
P
w
∗
e
t
w
b_w=P_w*e^{t_w}
bw=Pw∗etw
b
h
=
P
h
∗
e
t
h
b_h=P_h*e^{t_h}
bh=Ph∗eth
3.正负样本匹配
针对yolov3的匹配机制导致正样本过少,正负样本匹配不均匀的问题,在匹配正样本的过程之中,在正样本匹配机制上做了以下两点改进:
1. 不再限制一个GT只匹配一个最大iou
的anchor template
,设定一个阈值,只要anchor template
的iou大于这个阈值则判定为正样本
2.(
t
x
,
t
y
t_x,t_y
tx,ty)的值域从[0,1]
扩展到了[-0.5,1.5]
,首先我们计算出GT框的中心点坐标并找到该中心点坐标落 入的网格位置,因此在yolov4中一个GT框可用多个anchor
去匹配。
如果GT框中心点落入到网格左上
方,相对于左边网格左顶点
和上方网格的左顶点
而言,该中心点的偏移量在[-0.5,1.5]
的范围之内,所以左方和上方的网格皆可为该GT框提供anchor template
进行正样本匹配,这样就增加了更多正样本.
同理可知:
如果GT框中心点落入右上
,则右方
和上方
的网格的anchor template
也可作正样本匹配,
如果GT框中心点落入左下
,则左方
和下方
的网格的anchor template
也可作正样本匹配,
如果GT框中心点落入右下
,则右方
和下方
的网格的anchor template
也可作正样本匹配,
还有一种极端情况就是GT中心点正好落入该网格中心点,这时就只需要用这一个网格的anchor template
匹配正样本就足够了.
通过这两种方式大大的增加了正样本数量,一定程度上缓解了正负样本匹配不均匀问题.
4.Loss
在学习Loss之前yolov4中还有一个值得说一说的改进点为label smoothing
标签平滑 ,给自己数据集打过标签的同学都知道,手动打标签也会存在一定的误差,而在训练过程中我们将标签值设为1
,也是会存在一定的误差的,因此我们对标签值设立一个很小很小的惩罚项
ϵ
\epsilon
ϵ,在一定程度上可以平衡手动标签的损失.
yolov4
的损失函数改动主要是在定位损失上面,在yolov3
的文章中我们已经提到过了
L
o
s
s
l
o
c
Loss_{loc}
Lossloc采用MSE
损失函数计算不太合理了,因为一个好的损失函数应该既考虑到预测框与Gt框的宽高损失与中心点损失,还要考虑到iou
重合度,个人认为两个框之间的重合度更能反应真实框与预测框之间的差异.
所以yolov4
中采用了CIOU
来计算定位损失,
L
o
s
s
l
o
c
=
∑
i
∈
p
o
s
(
1
−
c
i
o
u
)
Loss_{loc}=\sum_{i\in pos}(1-ciou)
Lossloc=i∈pos∑(1−ciou)
C
I
O
U
=
I
O
U
−
(
G
T
框与预测框中心点的欧式距离
同时包含预测框和真实框的最小闭包区域的对角线距离
)
−
α
v
CIOU=IOU-( \frac{GT框与预测框中心点的欧式距离}{同时包含预测框和真实框的最小闭包区域的对角线距离})-αv
CIOU=IOU−(同时包含预测框和真实框的最小闭包区域的对角线距离GT框与预测框中心点的欧式距离)−αv
α
=
v
1
−
I
O
U
+
v
α =\frac{v}{1-IOU+v}
α=1−IOU+vv
v
=
4
π
2
∗
(
a
r
c
t
a
n
w
g
t
h
g
t
−
a
r
c
t
a
n
w
h
)
2
v = \frac{4}{\pi ^2}*(arctan\frac{w_{gt}}{h_{gt}}-arctan\frac{w}{h})^2
v=π24∗(arctanhgtwgt−arctanhw)2