论文:Boundary Constraint Network With Cross Layer Feature Integration for Polyp Segmentation
目录
一、背景和出发点
研究背景:大多数现有的基于CNNs的方法进行息肉分割效果往往不理想,作者希望通过增加边界约束,来提高息肉分割的精确度。
出发点:融合跨层上下文信息和利用边缘信息,以提高息肉分割的精确度。
主要工作:1. 跨层特征集成策略(CFIS) 2. 跨层特征交互模块(ACFIM) 3. 全局特征集成模块(GFIM) 4. 双边边界提取模块(BBEM)
研究成果:在三个公共数据集上的实验结果表明,所提出的BCNet在有效性和通用性方面都优于七种最先进的竞争方法。
二、创新点
1. 为了准确地分割息肉,考虑到息肉的挑战性特征,作者提出了一种新的深度网络(称为BCNet),重点是跨层特征集成和边界提取。
2. 提出了一种新的跨层特征融合策略(CFIS),该策略由ACFIM和GFIM组成。ACFIM自适应地桥接了前三个最高层的上下文信息。GFIM通过全局注意力引导跨层聚合融合的信息。提出的CFIS避免了简单的特征添加或集中带来的缺点,提高了分割性能。
3. 提出了一种新的边界提取模块BBEM。在高级位置特征和边界约束的帮助下,BBEM协同探索浅层的息肉和非息肉信息,并产生更好的分割性能。
4. 在三个公共数据集上进行的大量实验表明,我们的BCNet具有很高的有效性和通用性,并且优于为通用和特定目的设计的最先进的方法。
三、BCNet具体实现
BCNet总体架构如下所示:
输入:对于一个输入图像 ,从骨干的卷积块中获得一组输出,,,,,将,,,分别送入RFB中,提取其上下文信息, ,和。
最终输出:息肉边界预测 和息肉区域预测 。注意,BCNet有两个输出。
RFB:是一种新的特征提取模块。它可以增大特征图的感受野。在BCNet,用于突出锐利的边缘,抑制轻微的边缘。
1. 跨层特征集成策略(CFIS)
目的:融合前三层的上下文信息 ,获得息肉感知特征。
过程:CFIS获取最高的前三层的上下文信息 ,和作为息肉感知特征 的输入。首先,将,和用ACFIM融合,分别得到,和。其次,将和分别馈入同一层的两个GFIM中,将输出相加生成 。
2. 跨层特征交互模块(ACFIM)
目的:通过应用注意力机制,将相邻层之间的上下文信息连接起来,自适应地选择和加强用于息肉分割的重要特征。因此需要获取(提取前景特征)和(提取背景特征),并将二者融合。
(1)获得
过程:首先,分别通过1×1卷积和reshape操作将 转换为 和 ,的通道数由 降为,同时通过1×1卷积和reshape操作将转换成。得到Q,V1,K之后,将Q和K相乘再经过softmax处理,将得到的特征图再与V1进行相乘,再经过reshape操作还原回来原形状,与一个可学习的权重参数相乘后,再与相加得到。
对应的算子公式:
其中,= / 8 是Q和K的通道维数, = = 64, = /8 和 = /8 分别是的高度和重量。 是 的2倍空间上采样,为了与 进行尺寸匹配。 是一个可学习的权重参数。 是reshape操作,将特征投影为 的大小。δ(·)表示Sigmoid函数,⊗表示矩阵乘法。为转置运算。
不难看出,经过以上操作,经过训练最终可以学习到一个利于提取前景特征的权重参数。
(2)获得
过程: 与获取 类似,分别通过1×1卷积和reshape操作将 , 转化为Q,K,V2,然后Q与K相乘得到的特征图再经过revese操作得到,与V2相乘,再经过reshape操作还原回来与相同的大小,再与一个可学习的权重参数相乘,再与相加得到。
对应的算子公式:
其中, 是可学习的权重参数,, 是reshape操作。 为reverse操作,其中,是单位矩阵。
(3)输出
目的:可以协同学习重要特征和不重要特征,共同定位息肉预测。
算子公式:和进行相加操作。
Q:什么是上下文信息?
对象与场景之间的相互作用信息作为条件来对新目标进行识别、处理。
Q:为什么要对Q与K相乘得到的特征图,进行reverse处理?
reverse操作的作用:得益于reverse操作,更倾向于提取不重要的特征(即背景),与更侧重于捕获重要特征(即前景)完全不同。
Conclusion
因为ACFIM的目的是获取上下文信息,因此通过获取(提取前景特征),(提取背景特征),再融合相加,达到获取上下文信息,协同学习重要特征和不重要特征,共同定位息肉预测的目的。
Difficult Problem:原文中给出的reverse操作的算子公式真的有效吗?
一个同等大小的单位矩阵减去Q与K相乘再经过sigmoid得到的特征图,从感官上来看应该不能达到上图的效果吧??
3. 全局特征集成模块(GFIM)
目的:ACFIM模块通过提取上下文信息,完成了对息肉分割位置的定位,但是分割性能不理想,因此为了进一步提高分割性能,引入GFIM提取全局信息。
补充:1. GFIM模块根据使用不同池化方式分为GFIM max和GFIM avg,分别输出和。目的是为了提高特征表达。
2. GFIM模块是通道注意力模块。过程类似SE模块。
过程:GFIM max模块有两个支路,输入从上到下依次为F1和F3。首先,使用两个3×3卷积来处理每个分支的输入,用于局部调整特征。然后,在较低的分支中使用全局最大池化(GMP)/全局平均池化(GAP),来压缩全局信息,再通过一组全连接层+ReLU、全连接层+Sigmoid,最终得到。接下来, 上分支卷积所得结果,通过与 相乘来细化上分支的局部特征,得到,最后,再进行一次两个3×3卷积并与相加,得到。对应的算子公式如下:
其中,表示全局最大池化,表示两次3×3卷积,是元素乘法。,。同样,GFIM avg模块输出,将上述步骤中全局最大池化替换为全局平均池化即可得到。
注意:通道注意力向量与上分支卷积结果通过点乘得到,与SE模块类似,通道注意力向量中的每个权重值与对应通道上的feature map相乘。
GFIM max和GFIM avg输出融合相加:,融合相加的目的是为了提高特征表达,加强特征。在不同的场景下最大池化和平均池化保留的图像特征细节有所不同,融合相加可以保留更多的图像细节。 为息肉感知特征(用于定位息肉位置)。
CFIS最终输出: 经过1x1的卷积 + 上采样,在息肉掩码 监督下,得到息肉区域预测 。
4. 双边边界提取模块(BBEM)
目的:提高边界分割质量。
动机:深层特征的空间分辨率偏低(例如:整体架构中,,的分辨率分别是输入尺寸的1/8、1/16和1/32),在这些层上产生息肉掩模可能会导致边界粗糙,因此直接在浅层的特征图上生成息肉掩模,以深层提取的位置信息作为双边指导,有助于增强息肉边界特征,抑制非息肉边界特征。
补充:该模块有两个分支,一个分支用于分割高亮息肉区域,另一个分支用于分割高亮非息肉区域。
过程:首先,对深层位置信息 进行2倍的上采样,然后,上分支特征做reverse操作之后与 进行点乘,得到 (代表前景特征),下分支特征直接与 进行点乘,得到 (代表背景特征),完成上下文特征的加权。最后,将 和 相加,得到边界信息 。以上操作可表示为:
其中,表示由3×3卷积 + BN + ReLU组成的操作, 表示2倍的上采样操作。
最终输出:边界信息 经过1x1的卷积 + 上采样,在边界掩码 监督下,得到息肉边界预测 。
四、损失函数
1. 基本损失函数 ,由交叉熵损失和交并比损失组成:
其中, 为预测掩码, 为相应的真值掩码,和分别表示加权二分类交叉熵损失和加权交并比损失。
2. 整体损失函数,息肉边界预测损失与息肉区域预测损失之和:
五、实验
数据集:三个息肉数据集Kvasir-SEG,CVC-ClinicDB和EndoScene。
评价标准:选择骰子相似系数(DI)、息肉交并比(IoUp)、F2-score (F2)、召回率Recall(Rec)、准确率(AC)和真负比(TNR)。
实验1 消融实验:证明BBEM和CFIS模块的有效性。
如表第一行所示,去除BBEM模块可使DI,Io Up,F2,Rec and AC指标有明显的下降,因此说明BBEM作为BCNet中的一个关键模块,对实现良好的分割性能起到了积极的作用。去除CFIS模块导致DI、IoUp、F2、Rec和AC指标有明显的下降,这表明CFIS有助于获得更好的分割性能。不同配置下的BCNet分割结果如下:
实验2 与最先进方法的比较:与流行的网络的分割效果作对比。
与其他的网络相比,BCNet在各项指标上都达到最优效果,其中DI达到0.914,IoUp达到0.862,F2达到0.919,Rec达到0.930,AC达到0.974,TNR达到0.833,证明BCNet具有相当大的性能优势。与其他最先进的方法之间的性能比较结果如下:
六、结论
本文提出一种新颖的边界约束网络用于自动息肉分割。为了获得更好的聚合物感知表示,提出了一种新的跨层特征集成策略,该策略由两个关键模块组成,ACFIM和GFIM。 ACFIM自适应地连接前三个最高层的上下文信息。GFIM通过全局注意力引导对融合信息进行跨层聚合。为了获得清晰的边界,引入了一种新的双边边界提取模块,即BBEM。BBEM基于高层位置特征,协同挖掘浅层的息肉和非息肉信息。在三个数据集上的实验结果表明,所提出的网络有能力 有效且稳定地处理息肉分割任务。具体而言,在Kvasir-SEG数据集上,其DI得分为0.914,Io Up得分为0.862,F2得分为0.919。同时,对CVC-ClinicDB数据集和EndoScene数据集进行交叉验证检验,其DI得分约为0.820,IoUp得分约为0.750,F2得分约为0.830。