Bootstrap

MCnet: Multiscale visible image and infrared image fusion network---(多尺度可见光图像和红外图像融合网络 )2023

MCnet: Multiscale visible image and infrared image fusion network—(多尺度可见光图像和红外图像融合网络 )2023

在我看来本文的创新点如下:

  • 信息测量:将输入的源图像送入到VGG-Net去提取多尺度特征,通过测量不同尺度的信息量来得到源图像的信息量,根据源图像的信息量来确定该图像在损失函数中的权重信息。
  • 补充信息:在信息测量中,提取到的多尺度特征会被保存下来,多尺度特征被用来去向初步融合的粗略图像中补充信息。浅层尺度补充细节,深层尺度补充边缘、轮廓信息。
背景

现有的基于深度学习的融合算法存在的缺点

(1)对不同尺度下的图像信息量的确定不准确,并且信息仅反映浅尺度下的细节。

(2)融合任务过于集中,网络不能完全理解源图像的信息。在整个融合过程中,空间特征也被显著地忽略。

(3)网络的损失函数通常基于结构和像素对比度。一些关键特征纹理在融合过程中容易被识别为杂波噪声而被拒绝,导致融合结果质量不高。

(4)目前的融合网络集中在融合功能在一个单一的图像尺度,并得到的图像缺乏空间或纹理特征。

本文的贡献点

  • 为了在融合图像中保留更多的源图像特征,MCnet的网络结构是多尺度的,粗融合和细融合阶段构成了整个结构。我们引入Herris角点检测来解决融合图像中的丢失特征的问题。
  • 为了更好的网络收敛,损失函数被设计为结构损失,区域相似性损失和图像质量损失。我们引入自适应权重,以协助限制源和融合图像之间的相似性的损失函数。
  • 在不同的VIS-IR数据集上的大量实验表明,MCnet在定量和定性分析方面优于其他代表性方法。我们还将该模型扩展到三源遥感图像融合和医学图像融合,实验结果表明MCnet的通用性。
难懂的模块

信息测量:将源图像送入到VGG-16网络中去提取不同尺度的特征图,然后测量每个尺度的信息量,源图像的信息量是不同尺度的信息量的平均值。根据两个源图像的信息量来设置损失函数的权重信息。另外,如果源图像的信息量低于某一尺度N(某一卷积层)的信息量,就把前N个尺度的特征图保留下来,用作精细阶段对粗略融合结果的信息补充。

在训练过程中,信息测量模块为损失函数提供自适应权重。在融合过程中,计算图像的质量。此外,该模块还为精融合阶段提供了特征补充图像矩阵。最糟糕的时间复杂度是当矩阵大小为12 × 12时。此时,源图像信息密集,模型按规则保留输出图像的总共12层。
Herris角点检测:当多次合成相同的局部特征时,所得到的融合图像包含伪影和重叠。作为特征互补图像滤波器,Herris角点检测[55]用于防止重复特征融合,以消除这种影响,同时减少存储并提高运算速率。Herris角点检测的原理是将像素发生较大变化的位置作为角点,并创建特征浮点图。然后将特征互补矩阵中的所有图像与通过带通滤波器的粗融合图像的浮动点图进行比较,对选定的图像进行二次融合。
如下图所示:
在这里插入图片描述

网络框架

在这里插入图片描述

整个网络被分为粗融合模块和精细融合模块。

  • 粗融合模块

粗融合模块由3个不同尺度的ACB块组合而成。 3个长度为1的尺度 、2个长度为2的尺度和1个长度为3的尺度。总共三个尺度

AC + BN + Relu = ACB块。

将提取的多个尺度的特征进行融合得到粗略的融合结果。

在这里插入图片描述

  • 精细融合模块

精细融合模块,首先将粗略融合结果从空域转换到频域,然后通过带通滤波器过滤低频噪声,并且以牺牲一些纹理特征为代价来显著降低杂波噪声。通过对结果进行反转,获得具有整个边缘轮廓的合成图像,具体过程如下图所示。然后将信息测量模块中存储的源图像的前N层特征图生成NXN图像矩阵,结合Herris角点检测来对粗融合图像进行信息补充。浅层特征补充细节信息,深层特征补充轮廓信息。然后得到完整的融合结果。

在这里插入图片描述

在这里插入图片描述

损失函数

损失函数的目的是加速训练模型的收敛,增加模型的细节程度,并消除低质量的融合图像。它由两个功能组件组成,如下所述:
在这里插入图片描述

  • Lsc是结构相似性损失函数: 约束融合图图像在结构、亮度、对比度方面上尽可能域源图像一致

在这里插入图片描述

  • Lquality是图像质量损失函数:在训练过程中过滤低质量的合成图像,并在融合多尺度信息后拒绝噪声图像。使用峰值信噪比(PSNR)来衡量融合图像相比于源图像的质量变化。

    在这里插入图片描述

结论

在本文中,我们提出了MCnet,这是一种新的基于深度学习的多尺度框架中的多模态图像融合方法,用于处理融合红外和可见光图像的问题。首先,将融合阶段分为粗融合和精融合,粗融合阶段侧重于总体轮廓和降噪,而精融合阶段则对缺失的源图像特征进行补充,以提高融合效果。此外,为了提高网络的细节纹理和整体轮廓的融合能力,从相似性和图像质量的角度设计的目标函数,这是根据源图像的信息量设计的自适应权重相结合。使用公开访问的VIS-IR数据集进行的广泛试验表明,我们的方法在定性和定量评估方面优于竞争的代表性方法。此外,该方法被应用于处理生物医学功能和结构图像融合问题,其巨大的结果表明,其优秀的局部细节融合能力。因此,我们的方法具有实际的工程意义。

疑问

网络结构中的ATM没看明白也没找到是什么?

自适应卷积AC也仅仅是提了一下,没有解释?

其他论文

MAFusion:Multiscale Attention Network for Infrared and Visible Image Fusion

TCCFusion: An infrared and visible image fusion method based on transformer and cross correlation

THFuse: An infrared and visible image fusion network using transformer and hybrid feature extractor

;