Bootstrap

【FineGrip】全光学感知:一种新的通用遥感图像解释任务和细粒度数据集(IEEE TGRS 2024)

摘要

  • 目前的遥感解译模型通常集中于单一的任务,如检测、分割或字幕。但是,针对特定任务设计的模型无法实现综合多层次解译。该领域也缺乏多任务联合解译数据集。
  • 本文提出Panoptic Perception,一个新的任务和一个新的细粒度数据集(FineGrip)实现一个更全面和普遍的RSIs解译。该新任务:
    • 集成了像素级、实例级和图像立面信息,用于通用图像感知;
    • 从粗粒度到细粒度捕获图像信息,实现更深层次的场景理解和描述;
    • 通过多任务学习,使各种独立任务相互补充和增强。
  • 通过强调多任务交互和感知结果的一致性,该任务能够同时处理细粒度前景实例分割、背景语义分割和全局细粒度图像字幕。具体地说,FineGrip数据集包括2649张遥感图像,12054个细粒度实例分割掩码,有20个前景事物类别,7599个背景语义掩码和13245个字幕句子。
  • 此外,提出了一个基于联合优化的全视觉感知模型。对FineGrip的实验结果证明了全视觉感知任务的可行性,以及多任务联合优化对个体任务有益的效果。
  • 论文链接:https://arxiv.org/abs/2404.04608
  • 代码链接:FineGrip

动机

  • RSI解译在图像分类、目标检测、语义分割、实例分割、图像字幕生成、多种任务中呈现了快速发展趋势。然而,这些任务只涵盖了单个任务的解释。然而,这些任务的模型通常是独立设计的,而忽略了RSIs中丰富的语义和上下文关系。因此,期望实现对RSIs的多层次、细粒度、感知解译。
  • 最近,出现了新的研究来促进更全面的RSI解释。然而,关于RSI全光学分割的数据集和研究却很少,并且,全光学分割仍然关注于像素级和实例级的解译。另外,细粒度对象识别是识别目标对象的特定子类别的关键任务。然而,这些任务不能处理从像素级到图像级的多模态解释,缺乏综合感知能力和跨多模态任务的通用解释模型。

方法

  • 引言

    • 本文引入Panoptic Perception(全景感知),如图1所示,可以同时处理多层次解译中的各种子任务,包括前景实例的细粒度实例分割、背景区域的语义分割和图像字幕生成。这一创新任务和传统任务不同,不仅关注个人解译水平,而且促进互相强化和交互优化。多任务的协同处理要求模型在不同层次上全面理解全局上下文关系和语义信息。反过来又增强了模型提取和利用RSIs中丰富信息的能力。提出的全景感知集成了像素级、实例级和图像级理解来构建一个通用的解释框架。
    • 构建了FineGrip数据集支持新任务的开发。包括2,649张遥感图像,具有细粒度的飞机实例分割注释、不同的背景语义和细粒度的句子描述注释。据我们所知,这是第一个为RSIs集成细粒度检测、实例分割、语义分割和细粒度图像字幕注释的数据集。此外,还利用SAM构建了一个半自动的分割标注系统。它充分利用了SAM鲁棒的零样本能力,显著提高了前景分割的标注效率。
    • 为了验证所提出的全景感知的可行性和数据集的有效性,提出了一个端到端全景感知基础模型。实验结果证实了全景感知任务的可行性以及多任务联合优化对个体任务增强的有益影响。
  • 任务内容

    • 本文提出一个细粒度、统一的框架来同时实现像素级、实例级和图像级的解译。如图1所示,本文提出的任务超过了传统的单任务,需要模型来提取更全面的上下文特征,并能够在不同层次上联合解译多个任务:
      • 图像级别上,该任务要求模型生成整个图像的简明描述,并使用自然语言输出此概述
      • 实例级别上,模型识别所有前景对象的细粒度类别,区分同一类别内的不同实例,并为每个实例预测准确的轮廓。该任务还要求模型在其描述性句子中指定所有前景实例的数量和特定类别。
      • 像素级别上,该任务要求为图像中的每个像素分配一个不同的前景或背景类别。此外,必须为与不同前景实例相关联的像素分配一个唯一的标识符。
    • 给定一个图像I\in \mathbb{R}^{H\times W\times 3},定义一组单词Wds=\{wd_1,wd_2,...,wd_W\}和一组类别C^P=\{c_1,c_2,...,c_C\},其中W、C分别为单词和类别的总数。C^P可以进一步分为前景类别C^{Th}和背景类别C^{St},其中C^{Th}\cap C^{St}=\varnothing。细粒度全景感知任务的目标定义如下:
      • 对于图像中的任何给定的像素(x,y),模型需要同时预测像素的类别和实例id,记为(c_{x,y},id_{x,y})。同一实例中的所有像素都应该共享相同的类别和数字标识。当一个像素属于一个背景类别时,预测的实例id应该为\varnothing
      • 考虑最大句子长度L,模型应该为图像生成一个描述性句子,表示为\{w_1,w_2,...,w_L|w_i\in Wds\}。这个句子必须包含关于图像中前景对象的数量和类型的信息。
    • 细粒度的全景感知要求跨子任务的感知结果的一致性。如图1(a)所示,关于前景实例的数量和类型的标题应与分割结果相一致。
    • 对于分割子任务,采用Panoptic Quality(PQ)来评估性能,并且利用PQ^{th}PQ^{st}来测量前景和背景类别的分割质量。此外,还应用Recognition Quality (RQ) 和Segmentation Quality (SQ)对其识别和分割性能进行了分析。至于图像字幕的生成,使用BLEU来评估字幕质量。
  • 数据集构造

    • 新任务缺乏数据集,因此,开发乐一种基于新型半自动标注系统的细粒度全景感知基准数据集。
    • FineGrip数据集
      • FineGrip中样本主要来自MAR20,如表1所示,原始MAR20只包含边界框注释,需要扩展注释。
      • FineGrip包括2649张遥感图像,12054个实例分割覆盖20个前景类别,7599个背景语义掩模覆盖5个背景类别,以及13,245句具有细粒度类别指示的句子。前景类别包括SU-35, C-130, C-17, C-5, F-16, TU-160, E-3, B-52,P-3C, B-1B, E-8, TU-22, F-15, KC-135, F-22, FA-18, TU-95,KC-10, SU-34, SU-24。为了方便表示,类别分别用A1∼A20表示。而背景类别包含Land, Runway, Hardstand, Parking-apron, Building。图2显示了在training/testing中,每个类别的分割掩模数量。该数据集901张用于训练和1748张用于测试。
      • FineGrip聚焦机场场景,主要前景类别为各种飞机。图3展示了一些前景类别和背景类别的例子。在背景类别下,优先考虑和飞机目标密切相关的区域。将Runway定义为一条有线标记的长直线;Parking-apron是一个值得注意的区域;Hardstand是指除上述两种以外的飞机可以滑行的区域;Buildings被归类为背景而不是前景,因为我们不关心在这个场景中建筑的具体实例分割。我们只需要确定图像中的哪些区域与建筑有关。
      • 对于细粒度的图像标题任务,强调了前景目标的精确数量等信息。五个不同的注释者分别为每个图像注释1个不同的描述,以促进标题的多样性。最终,通过集成细粒度的实例分割、背景语义分割和细粒度的字幕注释,建立了FineGrip数据集。图4显示了从FineGrip中获得的一些完整的注释示例。
      • 与传统的解释任务和最近提出的RSI全光学分割数据集相比,FineGrip在以下方面表现出了显著的特征:
        • Abundant fine-grained semantic categories:FineGrip包含了20个细粒度的前景类别和5个背景类别来自不同类别的样本具有不同的语义、广泛的地形场景和复杂的语义关系等特点。此外,它还满足了类间差异小和类内差异大的实际挑战。
        • Broader granularity of caption sentences:字幕注释从一般粒度扩展到特定粒度,提供了图像的全面视图。它也很细粒度化,并与像素级注释相一致。此外,还详细描述了复杂的语义关系,从全局的角度实现了类人的感知。它给出了图像的一般概述,并确定了主要目标的精确计数和模型。
        • Affinity exploration of foreground-background relationships:在FineGrip中,前景类别和背景类别有着密切的关系。例如,飞机主要停在停机坪或硬架区域,但很少出现在陆地地区。此外,建筑区域通常被硬看台区域分开。这些客观因素表明,全景感知模型应考虑这些语义关系,即前景识别和背景分割具有相互增强的潜力。
        • Synergized multi-tasking:协调实例分割和图像字幕任务,既可以识别目标数量和子类别,又可以相互提高它们的性能。
    • 半自动注释系统
      • SAM有鲁棒的泛化能力以及很强的零样本分割能力,当提供高质量的提示时,基于SAM的注释系统可以生成高质量的无标签分割掩码。此外,利用少量标注数据对SAM进行微调,可以在各种下游分割任务中产生良好的性能。如图5所示,使用SAM进行RSI分割标注主要有两种方法:(a)直接输入图像;(b)使用手动注释的边界框作为提示。然而,(a)方法正在努力解决自然图像和RSIs之间的实质性领域差异;方法(b)并没有消除边界框注释所需的手动工作。
      • 为了弥补SAM缺乏RSI特定知识的不足,提高标注效率,设计了一种新的基于SAM的半自动标注系统,并辅以了一个监督检测和分割模型,如图5(c)所示。手动注释了一组小的图像的边界框,以训练一个检测器。为了确保不可见图像的注释质量,对检测模型生成的边界框进行手动检查。随后,预测的框结果作为提示,并输入SAM,对图像中的某些目标进行分割。在细化这些分割结果后,训练一个有监督的分割模型。所描述的过程是迭代的,即当前步骤得到的检测和分割结果直接输入到下一步的训练数据中。
      • 为了注释未看到的图像,首先使用检测模型来获取方框提示。然后,利用SAM和训练后的分割模型对分割结果进行预测。通过合并来自SAM和训练过的模型的结果来实现最终的分割注释。在实际应用中,简单地获得交叉区域可以有效地结合分割结果。
  • 基于联合优化的全景感知方法

    • 模型架构如图6所示。由像素级模块、全景分割模块和图像字幕模块三部分组成,分别负责编码图像特征、预测对象掩码和生成标题。在优化过程中,使用分割和字幕任务的损失函数进行梯度计算。
      • Pixel-level Module:由图像编码器和解码器组成。采用ResNet-50作为图像编码器,带卷积层的transformer解码器作为图像解码器。
      • Segmentation Module
        • 将实例分割和语义分割视为掩码分类问题,并使用基于transformer的方法。首先,初始化N个可学习查询 Q\in \mathbb{R}^{C_Q\times N},其中 C^Q是查询维数。从像素级模块中获得的特征F被用作键(K)和值(V)。使用一个标准的transformer解码器迭代的更新Q。类似于DETR,保存每个解码器层的结果。
        • 一个典型的transformer解码器层计算由三个部分组成:Q上的自注意力;Q、K和V之间的交叉注意力,和一个前馈神经网络。本文没有使用隐藏的注意,因为在查询之间没有时间关系。
        • 通过其他查询和图像编码特征的交互,该查询可以学习不同目标的特征及其在图像中的位置信息。随后,使用这些包含丰富信息的查询来进行掩码分类和生成。
        • 在掩码分类分支中,编码的查询经过线性变换,得到 N\times (C+1)个分类结果,其中C是前景和背景类别的总数。类别∅代表没有对象对象。
        • 在掩码生成分支中,查询被投影到掩码嵌入 Q_{mask}\in \mathbb{R}^{N\times C_E}中,它与每像素特征嵌入具有相同的信道维度。然后,在第i个掩模嵌入与矩阵E之间进行点积,然后应用s型函数生成第i个掩模预测结果。
        • 采用 Hungarian matching,在掩模预测结果和地面真实值之间生成一个一对一的映射。
      • Caption module
        • 如图7所示,我们使用一个基于模型无关的transformer解码器来执行标题生成。​​​​​​​
      • Overall Objective
        • ​​​​​​​​​​​​​​总损失函数为Lseg和Lcap的加权和

实验

Quantitative Analysis

Ablation Study

;