本文内容:添加MogaBlock
目录
论文简介
通过将内核尽可能全局化,现代卷积神经网络在计算机视觉任务中显示出巨大的潜力。然而,最近在深度神经网络(dnn)内的多阶博弈论相互作用方面的进展揭示了现代卷积神经网络的表示瓶颈,其中表达性相互作用不能随着核大小的增加而有效编码。为了应对这一挑战,我们提出了一个新的现代卷积神经网络家族,称为MogaNet,用于在纯基于卷积神经网络的模型中进行判别视觉表示学习,具有良好的复杂性和性能权衡。MogaNet将概念上简单但有效的卷积和门控聚合封装到一个紧凑的模块中,在这个模块中,判别特征被有效地收集和自适应地上下文化。与ImageNet上最先进的vit和ConvNets以及各种下游视觉基准(包括COCO对象检测、ADE20K语义分割、2d和3d人体姿势估计和视频预测)相比,MogaNet具有出色的可扩展性、令人印象深刻的参数效率和竞争力。值得注意的是,MogaNet在ImageNet-1K上以5.2M和181M参数达到80.0%和87.8%的准确率,优于ParC-Net和ConvNe