Bootstrap

双热点炸场!CNN与ViT完美结合,低端CPU上实现高精度与快速计算

目前CNN与ViT的混合模型已经成为视觉任务中的一类强大的基础架构,它不仅能胜过传统的Transformer,还可以胜过高性能卷积模型,为我们提供更广泛的创新空间。

这种技术整合了CNN的局部特征提取能力和ViT的全局特征捕捉优势,让模型更适应各种不同类型的图像任务,显著提升图像处理任务的性能表现。比如CNN-VIT轻量级混合网络SBCFormer,在低端cpu上实现了高精度和快速的计算。

利用以上优势,我们可以考虑一些CNN结合ViT的创新方向,主要有分层融合、动态架构调整、自监督学习等。为帮助论文er们快速找到idea,我根据这些方向整理了10篇最新的CNN+ViT创新方案给各位参考,开源代码都附上啦~

论文原文+开源代码需要的同学看文末

动态架构调整

SBCFormer: Lightweight Network Capable of Full-size ImageNet Classification at 1 FPS on Single Board Computers

方法:本文引入了一种名为SBCFormer的CNN-ViT混合网络,它在低端CPU上实现了高精度和快速计算。SBCFormer通过引入Transformer的注意力机制,以在树莓派等单板计算机上实现高准确度和快速计算的图像识别任务,填补了该领域研究的空白和理论框架。

创新点:

  • SBCFormer在处理低端处理器时,将Transformer的注意力机制应用于卷积操作,以解决卷积对内存访问和计算资源的要求较高的问题。该架构通过将输入特征图进行降维、应用注意力操作,然后再将特征图恢复到原始尺寸,以实现高准确性和快速计算。

  • 提出了改进的注意力机制,利用标准的CNN组件对注意力的输出进行了增强,以提高其表示能力。同时,为了减少计算成本,取消了应用于查询和键的独立线性变换,改为对所有三个组件应用相同的逐点卷积操作。

分层融合

HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs

方法:论文提出的HIRI-ViT是一种结合了CNN和ViT的方法,HIRI-ViT通过将传统的CNN操作分解为两个并行的CNN分支来构建,一个是高分辨率分支,另一个是低分辨率分支。高分辨率分支直接处理高分辨率特征,但使用较少的卷积操作;低分辨率分支首先进行下采样,然后进行更多的卷积操作。通过这种创新的结构设计,HIRI-ViT实现全SOTA效果。

创新点:

  • 通过在高分辨率输入上将典型的CNN操作分解为两个轻量级CNN分支,使得CNN+ViT混合骨干网络能够在保持较低计算成本的同时扩展到高分辨率输入。

  • 将典型的CNN操作分解为高分辨率分支和低分辨率分支,并在早期阶段引入了两个分支的双分支设计,以更好地平衡性能和计算成本。

A Multichannel CT and Radiomics-Guided CNN-ViT (RadCT-CNNViT) Ensemble Network for Diagnosis of Pulmonary Sarcoidosis

方法:论文描述的是一个结合了CNN和ViT的混合模型,称为RadCT-CNNViT。这个模型利用了3D CNN和3D ViT的各自优势,通过多通道输入和特征融合,来提高对肺部结节分类的性能。

创新点:

  • 将放射组学与CNN和ViT相结合,构建了一个多通道CNN-ViT集成分类框架,用于对肺结节病和肺癌进行分类。

  • 通过在网络中保留局部和全局表示,将CNN和ViT并行应用于诊断肺结节病和肺癌,同时使用放射组学纹理图作为额外的输入通道,实现了更好的特征表示。

知识蒸馏

Learning CNN on ViT: A Hybrid Model to Explicitly Class-specific Boundaries for Domain Adaptation

方法:论文讨论的是一种结合CNN和ViT的混合方法,称为显式类特定边界(简称ECB)。这种方法旨在充分利用ViT在捕捉全局表示方面的优势和CNN在捕捉局部表示方面的优势。

创新点:

  • 提出了一种基于ECB策略在ViT上学习CNN的新方法,充分利用了ViT和CNN的优势。这种创新方法专注于减少数据偏差,并显著提高了生成的伪标签的准确性,使源域和目标域之间的对齐。该方法在CNN分支上的表现优于先前的SOTA方法,并在各种DA基准数据集上实现了公平效果。

  • 提出了一种混合模型,结合了ViT和CNN的优势,成功地将这两个强大的框架进行了整合。该方法在DA基准数据集上实现了SOTA的性能,并取得了最高的准确率。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“卷积视觉”获取全部论文+开源代码

码字不易,欢迎大家点赞评论收藏

;