Bootstrap

UDA/语义分割:Feature Re-Representation and Reliable Pseudo Label Retraining for Cross-Domain Semantic

0.摘要

提出了一种新的无监督领域自适应语义分割方法。我们认为,目标域数据的良好表示应该同时保留源域的知识和目标域的特定信息。为了从源域获取知识,我们首先学习一组基来描述源域的特征分布,然后将源域和目标域的特征重新表示为源基的加权和。此外,还引入了一个鉴别器,使得两个域特征在相同基下的重表示责任无法区分。这样,源重表示和目标重表示之间的域间隙被最小化,重表示的目标域特征包含源域信息。然后,我们将特征重表示与原始的特定领域特征相结合,进行后续的像素级分类。为了进一步使重新表示的目标特征具有语义意义,提出了一种可靠的伪标签再训练(RPLR)策略,该策略利用多视点源图像训练网络的预测一致性,在未标记的目标图像上选择干净的伪标签进行重新训练。大量的实验证明了我们的方法在语义分割基准上的无监督领域自适应的竞争性能。

1.概述

卷积神经网络(CNN)[1]、[2]、[3]在语义分割方面已经取得了巨大的成功,但由于需要大量的标记数据,在新的场景中进行注释既耗时又昂贵。为了解决这个问题,提出了无监督域自适应(UDA)方法,利用源域的标记数据来训练一个能很好地推广到未标记目标域的模型。本文主要研究基于UDA的语义分割。
最近用于语义分割的UDA方法包括输入级[5]、[6](即图像翻译[7])、特征级[8]、[9]和输出级[10]、[11]的对抗对齐方法,以及包括伪标签重新训练[6]、[12]、[13]、熵最小化[14]和均值教师[15]、[16]在内的自训练方法。对抗性对齐方法过度强制网络提取领域不变的输出,但减少了特定领域的变化,这可能会扭曲原始特征分布并导致负迁移[17]。
为了使重新表示的目标特征在语义上更有意义,我们将伪标签重新训练策略集成到我们的框架中。以前的伪标签再训练方法[6]、[12]、[13]将网络对具有高softmax概率的未标记图像的预测视为地面真值标签(即伪标签)的近似值。然而,已知softmax概率的排名不可靠[23]、[24]、[25]、[26]。换句话说,较高的softmax概率不一定会带来正确的伪标签。为了使伪标签更加可靠,我们提出了可靠的伪标签再训练(RPLR)策略来选择伪标签。Cycle GAN[5]、[7]翻译的源图像在纹理、光照和外观上与目标图像相似,但由于图像翻译不理想而存在伪影,而原始源图像干净,但视觉间隙较大。因此,可以将这些图像视为同一场景的不同视图。利用不同源图像训练的两个网络的预测一致性作为可靠性,选择伪标签进行再训练。本文的贡献可以总结如下。i) 我们提出了一种新的框架,该框架利用特征重表示对齐(FRA)来借用源域的信息,并将其与目标域特定的特征结合起来进行语义分割。通过在公共源域基下的重新表示,可以最小化域间隙。提出了一种对抗性的规则化方法,对每个基元的重表示责任进行规范化,以进一步协调特征重表示。ii)在我们的框架中进一步引入了可靠的伪标签再训练(RPLR)策略,以提高基于UDA的语义切分的性能。iii)大量实验验证了我们基于UDA的语义分割方法的有效性。

2.相关工作

2.1.语义分割

近年来的语义分割网络是基于全卷积网络[1]的。语义分词的一个关键问题是接收域的限制。以前的方法通过atrous卷积[3],[27],[28],[29],金字塔池[2]和大内核[30],[31]来解决这个问题。目前流行的方法[32]、[33]、[34]、[35]利用注意机制[36]、[37]来捕获远程依赖。特别地,EMANet[35]使用期望最大化算法[38]来寻找每个图像内的特征重新表示基,作为对长距离依赖的关注。与[35]不同,我们通过EM处理UDA。[35]在推理阶段通过对多个步骤的交替更新在单个图像中查找基。我们的方法旨在保留来自整个源数据集的一组基来重新表示目标特征,因此在推断过程中不需要对单个图像中的多个步骤进行替换更新,减少了计算成本和推断时间

2.2.基于领域自适应的语义分割

近年来UDA语义分割方法主要分为对抗比对和自训练两大类。对抗性UDA语义分割方法包括三个层次的对齐:输入级对齐、特征级对齐和输出级对齐,它们在网络的不同层次上附加鉴别器以最小化域间隙。输入级比对[5],[6],[16],[39],[40],[41],[42]将源图像转换为目标图像,然后将其作为输入训练分割网络。Outputlevel对齐对网络的输出进行对齐,可以是分割预测[10],分割预测划分的patch[43],分割预测的熵图[14],[44]或以聚类像素为ground-truth的patch预测[11]。特性级对齐[8],[45],[46],[47],[48]最小化中间特性分布差距。自训练方法包括伪标签再训练[6],[12],[13],[42],[44],[48],[49],[50],熵最小化[14],[51]和mean teacher[15],[16]。伪标签再训练依赖于对未标记数据预测的softmax概率选择干净的伪标签,并使用它们进行再训练,导致目标域中类之间的分离。熵最小化是将未标记图像上的熵最小化,使目标预测类似于源图像上的低熵预测。对于未标记的图像,Mean Teacher由时间集成教师对网络进行监督。

3.方法

在这里插入图片描述

图1所示。Feature Re-representation Alignment (FRA)与ResNet101骨干的示意图。在FRA中,我们首先减少从网络骨干中提取的特征的通道。我们从源信道缩减特征中学习一组基,然后结合这些基重新表示源特征和目标特征。在每个碱基对重新表示所承担的责任上添加一个鉴别器,以使重新表示反向对齐。然后将重新表示的特征与原始特征一起添加,以进行最终的像素级分类。

在输入源图像IS带有语义标签YS和未标记目标图像IT没有标注的情况下,UDA的目标是通过使用IS和YS以及IT训练的模型来提高目标数据集的泛化性能。我们的UDA处理框架包括两个部分:i) Feature Re-representation对齐(FRA),获取特征Re-representation以最小化领域间隙,并将其作为来自源领域的知识与原始领域特定特征相结合。ii)可靠伪标签再训练(Reliable Pseudo Label Retraining, RPLR),选择可靠的伪标签进行再训练,使重新表示的目标特征更具有语义意义,如图2所示。

3.1.特征重表示对齐

如图1所示,我们学习了一组源base,然后在公共源base下重新表示来自两个域的特性。由于两个域的重新表示特征由一组共同的base组成,因此它们之间的差距相对于原始表示是最小的。与强制网络提取域不变输出并可能导致负传输[17]的对抗比对方法不同,FRA中的重表示避免了原始特征分布的失真;因此,保留了原始的特定于领域的特性。为了进一步对齐特征的重新表示,一个鉴别器被应用于每个基对重新表示的responsibilities作为对抗性正则化。因此,特征重新表示和原始特征的结合不仅提供了源领域的知识,而且提供了特定领域的信息。在FRA中,我们首先在分类器前对特征进行1 × 1的卷积,将信道数减少到512,以降低计算成本。然后,特征被源域基重新表示,然后通过其他1 × 1卷积来增加通道。特征重新表示最终被添加到原始特征中,作为后续像素级分类的快捷连接

3.1.1.特征重表示(Feature Re-Representation)

我们首先介绍一个简化的高斯混合模型[22]的特征再表示的一般形式。简化后的高斯混合模型采用期望最大化算法[38]进行优化。我们将观察到的特征表示为X,base表示为µ。在给定第k个base µk的情况下,第n个数据点xn的特征的后验概率为
在这里插入图片描述
α是一个预先定义的常数。因此,我们假设不同分布的混合系数相等:
在这里插入图片描述
我们可以很容易地得到似然函数的对数
在这里插入图片描述
为了使对数似然函数最大化,我们选择期望-最大化算法[38]来求解,因为lnp(X|μ)对µk的导数为零并不构成封闭解。
在最大化(M)步骤中,得到
在这里插入图片描述
其中,用于重表示的responsibility γnk在期望(E)步骤中使用当前参数评估为
在这里插入图片描述
式5中base -µk的更新可以看成是根据相应的responsibility γnk对xn的加权平均值。同样的,我们设lnp(X|µ)对xn的导数为零,来表示混合模型的数据,得到
在这里插入图片描述
它可以看作是xn的特征重表示,即根据各自的responsibility γnk将估计的bases µk 加权求和。

3.1.2.UDA中源域基下的特征重表示对齐(Feature Re-Representation Alignment Under Source Domain Bases for UDA)

在基于UDA的语义分割中,我们表示源特征和目标特征为XS, XT∈RH×W×C,其中H, W为全卷积网络中经过多次降采样操作后的高度和权重,C为通道数。然后将特征分别重构为xS、xT,其中xS、xT∈RN×C, N = H × W。我们对FRA的说明见图1。在FRA中,基只通过源域特征学习。另外,我们用网络训练维持基地的运转。由于在一个小批量中无法观察到所有的数据,我们在实现中利用指数移动平均来更新base µ。因此,在E步骤中,源特征xSn和目标特征xTn的responsibility γSnk和γTnk分别为
在这里插入图片描述
bases在M步骤中更新为
在这里插入图片描述
其中β是0和1之间的常数,意味着在一次更新中保留了多少历史。需要注意的是,只有源特征xSn和衍生源responsibility γSnk用于更新base µ(t)k,因此µ(t)k只表征源域的特征分布。
重新表示的源特性xˆSn和目标特性xˆTn被重新估计为
在这里插入图片描述
由于源特性xˆS和目标特性xˆT都用源域bases的加权求和重新表示,因

;