一、概述
U2Net是针对SOD任务设计的网络(SOD任务:将图片中最吸引人的目标/区域分割出来;即只有前景和背景两个部分,是一个二分类问题)
二、网络结构
1.特征提取网络
在编码器阶段,每个block会下采样2倍(maxpool);在解码器阶段,在每个block前会上采样2倍(bilinear)。
EN_1和DE_1采用的模块为RSU-7(下采样5次,上采样5次,总压缩倍率为32),结构如下图所示。
EN_2和DE_2采用的是RSU-6,相较于RSU-7少了一个上采样和一个下采样,总压缩倍率变为了16倍;EN_3和DE_3采用的是RSU-5,(比RSU-6少2倍的压缩倍率);EN_4和DE_4采用的是RSU-4(比RSU-5少2倍的压缩倍率)
而EN_5、EN_6和DE_5采用的则是RSU-4F结构(如下图所示),相较于RSU-4,本结构没有下采样结构。采用此结构的原因是经过数次下采样后,特征图的尺寸已经很小了。如再下采样势必丢失一些信息。
2.特征融合网络
分别取DE_1、DE_2、DE_3、DE_4、DE_5和EN_6的输出特征图,分别进行3x3卷积(kernel=1,经过卷积后通道数为1);
再通过双线性插值将特征图还原为输入图的尺寸;
最后将这6个特征图进行concat拼接。拼接后的特征图经过1x1卷积核sigmoid激活函数得到最终的预测。
三、网络配置参数
上面的是标准网络,下面的是轻量化网络。对应的参数如下图。
四、损失函数
该损失函数可以分为两部分:表示6个特征图与标注的Ground Turth计算损失,为二值交叉熵损失。代表每个损失的权重;为最终结果与Ground Turth之间的损失。所有的权重默认为1。
五、评价指标
1.F-measure
的取值范围为0~1,值越大效果越好
2.MAE