新模型设计:Adaptive Sparse Capsule Transformer (ASCT) for Few-Shot Image Classification
引言
小样本图像分类(Few-Shot Learning)要求模型通过极少量标注样本(如每类5张图)快速适应新类别。传统胶囊网络(CapsNet)在动态路由中依赖密集连接,容易在小样本场景下过拟合,而Transformer的全局注意力机制虽能捕捉长程依赖,但参数量大且缺乏对局部特征的显式建模。为此,我们提出自适应稀疏胶囊Transformer(ASCT),通过稀疏动态路由与局部-全局注意力融合,实现高效的小样本分类。本文将详细介绍 ASCT 的设计与实现,并使用 PyTorch 框架在 miniImageNet 数据集上进行实验验证。
1. ASCT 简介
ASCT 是一种结合稀疏动态路由、局部-全局注意力融合和元学习优化策略的深度学习模型。其核心思想是通过稀疏动态路由减少胶囊间的冗余连接,降低过拟合风险,同时通过局部-全局注意力融合模块协同捕捉局部细节与全局上下文,提升模型的表达能力。该模型特别适用于小样本学习任务,能够在极少量标注样本的情况下取得较高的分类准确率。
2. ASCT 的数学原理
2.1 稀疏动态路由
稀疏动态路由通过 L1 正则化约束路由权重,强制胶囊间稀疏连接,其核心公式为:
c i j = softmax ( b i j − λ ∣ b i j ∣ ) c_{ij} = \text{softmax}(b_{ij} - \lambda |b_{ij}|) cij=softmax(bij−λ∣bij∣)
其中, b i j b_{ij} bij 是胶囊 i i i 到胶囊 j j j 的对数先验概率, λ \lambda λ 是 L1 正则化系数。
2.2 局部-全局注意力融合
局部-全局注意力融合通过可变形卷积注意力机制动态学习注意力偏移量,其核心公式为:
Attention ( Q , K , V ) = softmax ( ( Q + Δ Q ) ( K + Δ K ) T d k ) ( V + Δ V ) \text{Attention}(Q, K, V) = \text{softmax} \left( \frac{(Q + \Delta Q)(K + \Delta K)^T}{\sqrt{d_k}} \right) (V + \Delta V) Attention(Q,K,V)=softmax(dk(Q+ΔQ)(K+ΔK)T)(V+ΔV)
其中, Δ Q , Δ K , Δ V \Delta Q, \Delta K, \Delta V ΔQ,ΔK,ΔV 由可变形卷积生成。
2.3 元学习优化策略
基于 MAML(Model-Agnostic Meta-Learning)框架,通过任务驱动的元训练提升模型快速适应能力,其核心公式为:
θ ′ = θ