Bootstrap

[神经网络]U2Net语义分割网络

一、概述

        U2Net是针对SOD任务设计的网络(SOD任务:将图片中最吸引人的目标/区域分割出来;即只有前景和背景两个部分,是一个二分类问题)

二、网络结构

        1.特征提取网络 

                 在编码器阶段,每个block会下采样2倍(maxpool);在解码器阶段,在每个block前会上采样2倍(bilinear)。

                EN_1和DE_1采用的模块为RSU-7(下采样5次,上采样5次,总压缩倍率为32),结构如下图所示。

                 EN_2和DE_2采用的是RSU-6,相较于RSU-7少了一个上采样和一个下采样,总压缩倍率变为了16倍;EN_3和DE_3采用的是RSU-5,(比RSU-6少2倍的压缩倍率);EN_4和DE_4采用的是RSU-4(比RSU-5少2倍的压缩倍率)

                而EN_5、EN_6和DE_5采用的则是RSU-4F结构(如下图所示),相较于RSU-4,本结构没有下采样结构。采用此结构的原因是经过数次下采样后,特征图的尺寸已经很小了。如再下采样势必丢失一些信息。

         2.特征融合网络

                分别取DE_1、DE_2、DE_3、DE_4、DE_5和EN_6的输出特征图,分别进行3x3卷积(kernel=1,经过卷积后通道数为1);

                再通过双线性插值将特征图还原为输入图的尺寸;

                最后将这6个特征图进行concat拼接。拼接后的特征图经过1x1卷积核sigmoid激活函数得到最终的预测。

三、网络配置参数

        上面的是标准网络,下面的是轻量化网络。对应的参数如下图。

 四、损失函数

        L=\sum w^{(m)}_{side}l^{(m)}_{side}+w_{fuse}l_{fuse}

        该损失函数可以分为两部分:w^{(m)}_{side}l^{(m)}_{side}表示6个特征图与标注的Ground Turth计算损失,l二值交叉熵损失w代表每个损失的权重;w_{fuse}l_{fuse}为最终结果与Ground Turth之间的损失。所有的权重默认为1。

五、评价指标

        1.F-measure

                F_\beta=\frac{(1+\beta^2)\times Precision\times Recall}{\beta^2\times Precision+Recall}

                        F_\beta的取值范围为0~1,值越大效果越好

        2.MAE

                 MAE=\frac{1}{H\times W}\sum\sum |P(r,c)-G(r,c)|

;