Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery Based on Large Vision Models
基于大视觉模型的遥感图像自引导少镜头语义分割
我的收获:如果未来要做few-shot,可以考虑参考,其余感觉就是魔改炼丹,没必要学。
1)自引导大视觉模型(Self-guided Large Vision Model, Few-shot SLVM),该框架利用SAM,可以显著地实现遥感图像分割过程的自动化,实现few-shot语义分割,而无需严重依赖人工引导。
2)我们提出了一种创新的“自动提示学习”技术,使用分段任意模型(SAM)来呈现粗糙的逐像素提示。这种方法的基础是一种创新的自动提示学习技术,它利用先前的引导蒙版为SAM生成粗糙的像素级提示,绕过了需要密集的手动指导。
为了方便解释,在下面公式中,用下面符号表示:训练数据集表示为D = {I, T},支持集表示为Ds = {Is, T},查询集表示为Dq = {Iq, Tq},其中I表示图像,T真值。
Prior Guided Metric Learning先验引导度量学习
引入先验引导度量学习模块,将先验信息与提示相结合。具体而言,在通过大视觉模型SAM的编码器后,我们首先在高级支持特征EH(IS)与掩码m之间进行Hadamard积,然后使用余弦相似度计算高级查询特征EH(IQ)与掩码加权支持特征之间的逐像素关联,定义为:
通过将中间查询特征EM(IQ)与像素级先验引导信息P串联,生成新的查询特征,有效地将支持信息与先验信息相结合,增强了分割效果。
Automatic Prompt Learning自动提示学习
我们设计了一种新的自动提示学习方法,从先验掩码YP中为SAM生成粗的逐像素提示,以指导分割预测。提示指标W由先验掩码YP推导而来,输出掩码Y重新表述为:
在训练过程中,SAM的编码器和解码器都被冻结,通过不断优化自引导提示嵌入,引导其专注于感兴趣的区域。