2024深度学习发论文&模型涨点之——Mamba+UNet
众所周知,CNN 在长距离建模能力方面存在局限性,而 Transformer 随能全局建模但受到其二次计算复杂度的限制。因此,以 Mamba 为代表的状态空间模型(SSMs)已然成为一种有前景的方法。
Mamba是一种状态空间模型(SSM),它是一种用于时间序列分析的统计模型。Mamba模型能够处理长序列数据,并能够捕捉数据中的全局上下文信息。在图像分割的上下文中,Mamba被用来增强网络对图像全局信息的捕捉能力。
UNet是一种深度学习模型,主要用于图像分割任务,特别是在医学图像分析领域。它由Falk et al.在2015年提出。UNet的结构呈U形,包含一个收缩路径(编码器)和一个扩展路径(解码器),两者通过跳跃连接相连。这种结构使得网络能够在不同尺度上捕获图像特征,并在解码器中重新组合这些特征,以实现精确的分割。
我整理了一些Mamba+UNet【论文+代码】合集,需要的同学公人人人号【AI创新工场】自取。
论文精选
论文1:
LKM-UNet: Large Kernel Vision Mamba UNet for Medical Image Segmentation
LKM-UNet:大核视觉Mamba UNet用于医学图像分割
方法
大核Mamba:利用大Mamba核在局部空间建模方面的优势。
层次化和双向Mamba块:设计了一种新型的层次化和双向大核Mamba块,以增强SSMs的表示建模能力。
像素级和补丁级SSM:提出了由像素级SSM(PiM)和补丁级SSM(PaM)组成的层次Mamba模块,增强了局部邻域像素级和长距离全局补丁级建模。
创新点
性能提升:LKM-UNet在3D Abdomen CT数据集上的DSC和NSD分别达到了86.82和90.02,相较于其他方法有显著提升。
计算效率:通过使用大核Mamba设计,LKM-UNet在保持计算效率的同时实现了大感受野。
结构优化:LKM-UNet通过引入PiM和PaM,以及双向Mamba(BiM),在局部和全局特征建模方面均显示出优越性。
论文2:
Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement
Mamba-SEUNet:用于单声道语音增强的Mamba UNet
方法
架构整合:将Mamba与U-Net架构整合,用于语音增强任务。
双向Mamba:利用双向Mamba建模不同分辨率下语音信号的前后依赖性。
多尺度信息:通过跳跃连接捕获多尺度信息。
创新点
性能提升:Mamba-SEUNet在VCTK+DEMAND数据集上达到了3.59的PESQ得分,结合感知对比拉伸技术后,PESQ得分进一步提升到3.73。
计算复杂度:在保持低计算复杂度的同时实现了SOTA性能。
结构优化:通过增加TS-Mamba块的数量,Mamba-SEUNet在PESQ、STOI和MOS评分上均有所提升。
论文3:
LightM-UNet: Mamba Assists in Lightweight UNet for Medical Image Segmentation
LightM-UNet:曼巴助力轻量级UNet进行医学图像分割
方法
轻量级UNet框架:提出了一个轻量级的UNet框架LightM-UNet,通过整合曼巴和UNet来解决计算资源限制带来的挑战。
残差视觉曼巴层(RVM Layer):利用RVM Layer以纯曼巴方式提取深层语义特征,并模拟长距离空间依赖关系,计算复杂度为线性。
多视图交叉监督学习:通过不同网络架构的视角多样性,增强了生成的伪标签的鲁棒性和泛化能力。
创新点
参数和计算成本的显著降低:与著名的nnU-Net相比,LightM-UNet在参数和计算成本上分别减少了116倍和21倍,同时实现了更优的分割性能。
残差视觉曼巴层(RVM Layer):提出了RVM Layer,以几乎不引入新参数和计算开销的方式,增强了SSM对视觉图像长距离空间依赖关系的建模能力。
性能提升:在LiTs数据集上,与nnU-Net相比,LightM-UNet在Dice系数上提高了0.04,准确率上提高了0.02,同时在Montgomery&Shenzhen数据集上,Dice系数达到了0.9617,准确率为0.9274。
论文4:
VM-UNet: Vision Mamba UNet for Medical Image Segmentation
VM-UNet:视觉曼巴UNet用于医学图像分割
方法
状态空间模型(SSM):提出了一个基于SSM的U形架构模型VM-UNet,用于医学图像分割。
视觉状态空间(VSS)块:引入VSS块作为基础块来捕获广泛的上下文信息。
非对称编码器-解码器结构:构建了一个具有较少卷积层的非对称编码器-解码器结构,以节省计算成本。
创新点
纯SSM-based模型的首次探索:首次探索了纯SSM-based模型在医学图像分割中的潜在应用,建立了该领域中的一个新基线。
性能竞争力:在ISIC17和ISIC18数据集上,VM-UNet在mIoU、DSC、Acc和Sen等指标上均取得了最佳或接近最佳的成绩,显示出强大的竞争力。
计算效率:通过非对称结构设计,VM-UNet在保持性能的同时减少了参数数量和计算负载,具体数据显示,与对称结构相比,参数数量减少了0.1M,计算负载减少了0.24 GFLOPs。