Bootstrap

SAM+RS:基于大视觉模型的遥感图像自引导少镜头语义分割

Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery Based on Large Vision Models

基于大视觉模型的遥感图像自引导少镜头语义分割

我的收获:如果未来要做few-shot,可以考虑参考,其余感觉就是魔改炼丹,没必要学。

1)自引导大视觉模型(Self-guided Large Vision Model, Few-shot SLVM),该框架利用SAM,可以显著地实现遥感图像分割过程的自动化,实现few-shot语义分割,而无需严重依赖人工引导。

2)我们提出了一种创新的“自动提示学习”技术,使用分段任意模型(SAM)来呈现粗糙的逐像素提示。这种方法的基础是一种创新的自动提示学习技术,它利用先前的引导蒙版为SAM生成粗糙的像素级提示,绕过了需要密集的手动指导。

为了方便解释,在下面公式中,用下面符号表示:训练数据集表示为D = {I, T},支持集表示为Ds = {Is, T},查询集表示为Dq = {Iq, Tq},其中I表示图像,T真值。

Prior Guided Metric Learning先验引导度量学习

引入先验引导度量学习模块,将先验信息与提示相结合。具体而言,在通过大视觉模型SAM的编码器后,我们首先在高级支持特征EH(IS)与掩码m之间进行Hadamard积,然后使用余弦相似度计算高级查询特征EH(IQ)与掩码加权支持特征之间的逐像素关联,定义为:

通过将中间查询特征EM(IQ)与像素级先验引导信息P串联,生成新的查询特征,有效地将支持信息与先验信息相结合,增强了分割效果。

Automatic Prompt Learning自动提示学习

我们设计了一种新的自动提示学习方法,从先验掩码YP中为SAM生成粗的逐像素提示,以指导分割预测。提示指标W由先验掩码YP推导而来,输出掩码Y重新表述为:

在训练过程中,SAM的编码器和解码器都被冻结,通过不断优化自引导提示嵌入,引导其专注于感兴趣的区域。

悦读

道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。

;