Bootstrap

【U-HRNet2022】U-HRNet: Delving into Improving Semantic Representation of High Resolution Network for

U-HRNet: Delving into Improving Semantic Representation of High Resolution Network for Dense Prediction

U-HRNet: 深入研究改进高分辨率网络的语义表示以实现密集预测


arXiv:2210.07140v1 [cs.CV] 13 Oct 2022
文章地址:https://arxiv.org/abs/2210.07140
代码地址:https://github.com/PaddlePaddle/PaddleSeg


摘要

  高分辨率和先进的语义表示对密集预测都是至关重要的。根据经验,低分辨率的特征图往往能实现更强的语义表示,而高分辨率的特征图一般能更好地识别局部特征,如边缘,但包含较弱的语义信息。现有的先进框架,如HRNet,将低分辨率和高分辨率的特征图并行保存,并在不同的分辨率下反复交换信息。然而,我们认为,最低分辨率的特征图往往包含最强的语义信息,需要经过更多的层来与高分辨率的特征图合并,而对于高分辨率的特征图,每个卷积层的计算成本非常大,没有必要经过这么多层。因此,我们设计了一个U型高分辨率网络(U-HRNet),它在具有最强语义表示的特征图之后增加了更多的阶段,并放松了HRNet中所有分辨率需要对新增加的阶段进行平行计算的约束。更多的计算被分配给低分辨率的特征图,这大大改善了整体的语义表示。U-HRNet是HRNet骨干的替代品,在完全相同的训练和推理设置下,可以在多个语义分割和深度预测数据集上取得明显的改善,而计算量几乎没有增加。代码见PaddleSeg[47]:https://github.com/PaddlePaddle/PaddleSeg


1导言

密集预测任务,包括语义分割和深度估计等,是视觉理解系统的重要组成部分。密集预测任务需要预测像素级的类别标签或重新确定具体数值,这比图像级的预测任务更具挑战性。同时保持高分辨率和强大的语义信息是有效解决密集型预测任务的关键。高分辨率保证了最终的预测粒度尽可能地接近像素级,可以获得更准确的局部判别,如更准确的边缘。强大的语义信息确保了整体预测的准确性,特别是对于难以区分的实例或面积相对较大的实例。

图1:HRNet和U-HRNet的语义分割结果。我们用白色的虚线框来标记结果有明显差异的区域。

深度卷积神经网络,如U-Net[57, 87]、DeepLab[4, 5]、HRNet[63, 67],它们遵循FCN[48]的设计,在密集预测任务中取得了令人兴奋的结果。特别是高分辨率网络(HRNet)[63, 67]在密集预测任务中取得了最先进的成果,如语义分割、人体姿势估计等。HRNet能够学习高分辨率的表征,同时确保低分辨率特征图和高分辨率特征图之间的语义信息传输。然而,我们观察到,HRNet仍有很大的改进空间。我们经常可以看到,大面积的分类是不正确的。例如,在图1中,第二行显示了HRNet的结果。在图1(a)和(b)中,整个实例被错误分类,而在(c)中,一个大面积实例内的一些区块被错误分类。这表明HRNet实现的语义表示仍然不够好。我们认为这可能是由于HRNet的宏观结构造成的,这可以概括为以下两个方面。
(i) HRNet的最低分辨率分支的最终块具有最强的语义表示,它被直接输出,而没有被完全传播到更高的分辨率分支。
(ii) HRNet的低分辨率分支不够深入,使得网络的语义能力受到限制。而在HRNet的后两个阶段增加模块的数量以获得更深的网络显然是不可取的,因为计算成本会大大增加。U-Net[57]在一定程度上缓解了上述两个问题。然而,在U-Net中,每个阶段只保留一个分辨率,除了与残余链接合并外,不同尺度之间没有融合。我们认为,能够并行地保持多个尺度并随时进行多尺度融合是HRNet的最大优势。

在不增加额外计算成本的前提下,提高高分辨率网络的整体语义表示,我们提出了一个简单而有效的网络,名为U型高分辨率网络(UHRNet)。它继承了UNet的编码器-解码器结构,有利于从最强语义特征图到最高分辨率特征图的嵌入传播。同时,它完美地保留了HRNet的优点,在任何时候都能保持多尺度的并行,进行多尺度融合。此外,它减少了高分辨率分支上的块数,并将其计算重新分配到低分辨率分支上,以获得更大的语义容量,而不增加更多的计算量。如图1所示,我们可以看到,我们的U-HRNet在困难对象和大面积实例的语义表示方面比HRNet更具优势。幸运的是,U-HRNet与最近由[77]提出的OCR头也能很好地配合,因为UHRNet专注于提高整个网络的语义能力,这与OCR的优势并不重叠,后者旨在借助对象和类别之间的语义关系来更好地进行标注。

因此,本文的贡献有以下两点。
1)提出了一个简单而有效的网络U-HRNet,它在密集预测任务中的表现优于HRNet,而且几乎没有增加计算量。
2)U-HRNet和OCR在几个语义分割数据集上创造了新的技术水平。


2.相关工作

语义分割是一项像素级的分类任务,但它也需要对整个场景的语义有深入的了解,以便为每个像素分配正确的标签。自从Long等人[48]提出完全卷积网络(FCN),其中只包括卷积层,并且可以将任意大小的图像作为输入,各种深度卷积神经网络(DCNN)一直主导着语义分割的任务。为了整合更多的场景级语义背景,一些方法[4, 42, 61]将概率图解模型纳入了DCNNs。例如,Chen等人[4]提出将DCNN与全连接条件随机场相结合。其他一些工作,如RefineNet[41]、ExFuse[82]和CCL[11],都被提出来从多尺度聚合的角度来捕捉丰富的上下文信息。

与其使用其他计算机视觉任务中常用的传统DCNN骨干网络[24, 26, 31, 62, 64],不如开发一个更适合分割的骨干网络,可以获得更好的语义分割性能。用于图像分割的一个流行的DCNN系列是基于卷积编码器-解码器架构的[52]。U-Net[57]和V-Net[51]是两个著名的此类架构。它们都需要经过多个下采样的卷积块,并使用多个上采样的解卷积块来恢复原始分辨率。PSPNet[83]和Deeplabv3系列[5,6]通过不同大小的池化核或不同稀释率的稀释卷积来保留多个空间分辨率。HRNet[63, 67]是在人类姿势估计任务上首次提出的。它也非常适用于语义分割任务,并能取得最先进的结果。HRNet以并行的方式保持高低分辨率的卷积流,并重复交换不同分辨率的信息。我们的方法U-HRNet是基于HRNet建立的。它继承了HRNet的优点,保持多个分辨率流并重复进行跨分辨率的信息传输。同时,我们将高分辨率特征图上不必要的计算量分配给更有意义的部分,以改善整体的语义呈现。我们的方法与U-Net有一定的相似性,因为它们都是U型网络。但与U-Net不同的是,U-Net在每个阶段只保持一个分辨率,而U-HRNet的每个阶段将继承前一个阶段的一个分辨率流,这更有助于不同分辨率之间的融合。

此外,还有很多基于自我注意的方法[66]来改善语义表示。例如,OCNet[77]通过应用自我注意模块来计算每个像素与其他所有像素的相似性,从而聚合物体的上下文。DANet[17]和Relational Context-aware Network[53]在空间和通道两个维度上探索上下文依赖关系。HCNet[8]提出了一种方法来捕捉每个同质区域内像素之间的依赖关系,并继续对不同区域之间的相关性进行建模。由于我们的工作主要集中在改进骨干结构,我们没有把这些模块添加到我们的模型中进行纯粹的比较。事实上,这些与骨干结构无关的改进大多可以直接应用于UHRNet,以达到更好的效果。

深度估计是一个像素级的回归任务,这也需要对整个场景的全局理解。早期的工作[59]依赖于手工制作的特征来解决这个问题。自从使用深度学习来预测深度图后,性能得到了显著提升[1,2,12-14,16,25,32,35,36,44,45,70,71]。如同在语义分割中,各种骨干[5, 57, 67]也被用于深度估计。在本文中,我们也表明UHRNet可以在深度估计任务中取得更好的结果。


3. U型高分辨率网络


3.1. HRNet的回顾

图2:说明了不同方法的网络结构。(a) HRNet由平行的高-低分辨率子网络组成,重复的hr-模块在多分辨率特征图之间交换信息。(b) U-Net在每个阶段只保持一个分辨率。(c) U-HRNet是一个宏观范围内的U型网络。每个阶段由不超过两个分辨率分支形成的几个hr-模块组成。

HRNet是在[63]中首次提出的用于人体姿势估计的优秀神经网络。之后,[67]进一步证明了HRNet可以在许多其他任务上工作得非常好,比如物体检测、语义分割。因此,可以看出,HRNet不仅在高层次的语义表示方面很强,而且在低层次的空间细节方面也很强。如==图2(a)==所示,1/4的分辨率从网络的开始到结束都是一致的,并且随着网络深度的增加,更多的低分辨率被添加到语义表示学习中,从而通过多分辨率融合提高了高分辨率表示。

然而,HRNet对于一些密集的预测任务可能并不完美。例如,语义分割是一个典型的密集分类任务,重要的是引入高层次的全局信息来帮助一个像素预测其语义类别。从这个角度来看,我们发现HRNet有以下几个缺点
(i) 1/32分辨率分支的最后一个区块具有最强的语义表征,它被直接输出而没有得到充分利用。
(ii) 高、低分辨率分支之间的计算分配没有得到优化,具有强语义表示的低分辨率分支应该得到更多的关注。


3.2. U-HRNet的结构

为了缓解上述缺点,我们提出了一个简单有效的高分辨率网络,名为U-HRNet,它通过重组HRNet的宏观布局来改善高分辨率输出的语义表示。我们将从以下三个角度描述U-HRNet的细节:主体、融合模块和表示头。


3.2.1 主体

继HRNet之后,我们将图像输入到一个干块中,将分辨率降低到1/4,而主体则输出与1/4相同分辨率的特征图。图2 c显示了U-HRNet的主体。与图2 b所示的U-Net一样,主体在宏观范围内似乎是一个U型网络,而在微观范围内,它是由[63,67]中提出的几个hr-模块组成的。然而,每个hr-模块是由不超过两个决议分支组成的。这种设计方式是为了解决第3.1节中提到的HRNet的缺点。重组的细节将在下面阐述。首先,我们删除了HRNet最后两个阶段的高分辨率分支(阶段3和阶段4的1/4分辨率分支,阶段4的1/8分辨率分支),这使得大量的计算被释放。然后,为了改善高分辨率输出的语义表示,我们在最低分辨率阶段之后增加了几个阶段。这些阶段逐渐对特征图进行上采样,并与之前阶段的特征合并。这使得最低分辨率阶段输出的具有最强语义表示的特征可以更早地与低级别的高分辨率特征合并,因此成功的阶段能够通过充分分析最强的表示来推断空间细节。最后,我们重新安排不同阶段的hr-模块。我们在低分辨率阶段增加模块,而在高分辨率阶段减少模块,从而在更大程度上改善语义表征。此外,我们增加了一个具有1/32和1/64分辨率分支的阶段,以产生更丰富的语义表示,而不需要增加额外的高分辨率分支。与UNet类似,我们在网络的深度方向上设置了几条捷径,分别连接阶段2和阶段8、阶段3和阶段7、阶段4和阶段6。这些捷径使网络既能利用高层次的特征,又能利用低层次的特征,同时,使梯度能够直接传播到前面的阶段。


3.2.2 融合模块

图3:融合模块。融合A是HRNet[67]中的融合模块,它直接添加两个输入特征。拟议的融合B首先在通道维度上汇集两个输入特征,核大小为2,然后将它们串联起来。

与主体中的捷径相对应,在阶段8、阶段7和阶段6之前有三个融合模块,分别将阶段2、阶段3和阶段4的高分辨分支输出的低层次特征与阶段7、阶段6和阶段5的高分辨分支的上采样特征进行融合。直观地说,我们可以应用高分辨率模块中的融合方法,即把两个输入特征相加,然后进行ReLU函数激活,如图3中的融合A所示。然而,根据U-Net的融合方法,我们认为将两个输入特征连接起来可以增强网络的连通性。因此,我们首先在通道维度上将两个输入特征集合起来,核大小为2,然后将它们在通道间连接起来作为输出特征,如图3中的融合B所示。


3.2.3 表示头

对于表示头,我们基本遵循HRNetV2。输出的多分辨率特征来自阶段5、阶段6、阶段7、阶段8和阶段9的低分辨率分支。然而,由于增加了1/64的分辨率,U-HRNet表示头中卷积的输入通道的数量是HRNetV2的两倍。为了保持与HRNetV2表示头相似的计算成本,我们将多分辨率特征通过核大小为2的池化操作,然后将它们在通道维度上串联起来作为表示头的输入。


3.3. 实例化

U-HRNet的主体包含9个阶段,5个分辨率流。分辨率为1/4、1/8、1/16、1/32、1/64。第一阶段包含1个由4个瓶颈残差块组成的单分支hr模块,每个块的宽度为64,然后是一个3×3卷积,将特征图的宽度改为 C C C,表示为1/4分辨率流的宽度。第二至第八阶段分别包含1、5、2、2、1、1、1hr-modules,。所有这些模块都由两个分支组成,这些模块中的每个分支由4个基本剩余块组成。和第一阶段一样,最后一个阶段也包含1个单分支的hr模块,而这个模块由4个基本残差块组成。最后,五个解析流的卷积宽度分别为 C 、 2 C 、 4 C 、 8 C C、2C、4C、8C C2C4C8C和1 6 C 6C 6C图2(c)描述了U-HRNet的布局。此外,U-HRNet-small与U-HRNet相比有两点不同,即(i)第三阶段由2个hr模块组成,而其他阶段与U-HRNet相同;(ii)U-HRNet-small的hr模块的所有分支都包含2个瓶颈块或基本块。剩余


3.4. 分析

除了第一个和最后一个阶段,在U-HRNet中,主要采用双分支的hr模块作为组成网络的基本单元,而不是HRNet中使用的多分辨率(两个或多个)并行卷积和U-Net中的单分支卷积序列。它带来了一些好处,有助于改善语义表达。与HRNet相比,双分支hr-module放宽了所有分辨率在某一阶段需要平行计算的限制,同时也没有失去多分辨率推理的优势。这使得U-HRNet可以比HRNet在低分辨率分支上附加更多的计算,并进一步提高最强的语义表示。与U-Net相比,双分支的hr-module在多尺度表征学习上明显优于单分支的卷积序列。此外,当进入下一个分辨率时,无论是下采样还是上采样,UHRNet仍然保持之前的一个分辨率,并将两个分辨率的特征连续融合。这使得网络可以充分利用之前学到的信息,同时避免了因分辨率变化而造成的空间或语义知识的损失。


4. 语义分割

语义分割是一个预测图像中每个像素的类别标签的问题。它是场景理解中的一个基本和重要的密集任务。在这里,我们对三个流行的语义分割数据集进行了广泛的实验,包括Cityscapes、ADE20K和LIP,然后报告最先进的结果。此外,我们还在一个医学基准上进行了实验,即Synapse多器官CT,然后展示了具有竞争力的结果。


4.1. 数据集和评估指标

城市景观。Cityscapes数据集[9]是一个大规模的数据集,用于城市场景的语义理解。它包含了5,000张带有精细注释的图像和20,000张带有粗略注释的图像,收集自50个不同的城市。这个数据集总共包括30个类,其中19个用于实际训练和验证。值得注意的是,在我们的实验中,我们只使用了5,000张带有精细注释的图像作为我们的数据集,这些图像被分为2,975,500和1,525张用于训练、验证和在线测试。所有类别的平均物价指数(mIoU)被用作该数据集的主要得分,此外,测试集上还报告了三个额外的得分。IoU类别(cat.)、iIoU类别(cla.)和iIoU类别(cat.)。

ADE20K。ADE20k数据集[86]是一个具有挑战性的场景解析数据集,它有150个类,1038个图像级别的标签,并且在不同的场景和尺度上有差异。它被分成训练/验证/测试集,分别包含20K/2K/3K图像。mIoU被用作该数据集的主要得分。

LIP. LIP数据集[22]包含50,462张精心标注的人类图像,其中30,462张图像用于训练,10,000张图像用于测试。这个数据集包含20个类别(19个人体部位标签和1个背景标签)。mIoU是这个数据集的主要指标,同时还报告了像素精度(acc.)和平均精度(avg.)。

协同多器官CT。在此,我们采用与文献[3]相同的数据集设置,使用30张腹部CT扫描,共有3779张轴向对比度增强的腹部临床CT图像。每个CT卷中有85∼198个512×512像素的切片,一个体素的空间分辨率为([0.54∼0.54]×[0.98∼0.98]×[2.5∼5.0])mm3。我们还在8个腹部器官上应用平均DSC和平均Hausdorff距离(HD)作为评价指标,与[3]相同。


4.2. 实时细节

对于训练和测试设置,我们遵循 [67, 77] 在Cityscapes, ADE20K和LIP上进行的U-HRNet和U-HRNet+OCR的实验。而在Synapse多器官CT上,我们遵循[3]。


4.3. 实验结果


4.3.1 消融研究

我们使用HRNetV2-W18-small-v2作为基线结构,对U-HRNet的几种不同结构配置进行消融研究。而且所有的实验都是从头开始训练。为方便起见,我们用一串数字对网络结构进行编码。序列中的每个数字代表一个阶段,数字本身等于这个阶段的hr-modules的数量。例如,"1↘1↘2↘5↗1↗1↗1 "表示一个网络有7个阶段,每个阶段的hr模块数量分别为1、1、2、5、2、1、1。此外,在该序列中,↘表示在两个相邻的阶段之间进行下采样,而上采样为↗。特别是,在没有额外要求的情况下,序列的第一阶段和最后一个阶段是由单分支的hr模块组成的,而其他阶段则是双分支的模块。否则,如果一个序列以=结束,那么这个序列的最后一个阶段就由两分支的hr模块组成。更多细节见补充材料。

表1:对Cityscapes val的消融研究。GFLOPs是按输入尺寸1024×2048计算的。
structureGFLOPsmIoU
HRNetV2-W18-small-v2-71.670.1
U-HRNet-W18-small-va1↘1↘3↘2=58.671.4
U-HRNet-W18-small-vb1↘1↘3↘5=67.772.8
U-HRNet-W18-small-vc1↘1↘3↘7=73.873.3
U-HRNet-W18-small-vd1↘1↘2↘5↗1=67.773.5
U-HRNet-W18-small-ve1↘1↘2↘5↗1↗1↗172.274.7
U-HRNet-W18-small-vf1↘1↘4↘1↘1↗1↗1↗1↗173.173.0
U-HRNet-W18-small-vg1↘1↘2↘1↘1↗1↗2↗2↗173.173.3
U-HRNet-W18-small-vh1↘1↘2↘2↘2↗1↗1↗1↗173.173.9
U-HRNet-W18-small1↘1↘2↘2↘2↗1↗1↗1↗173.1 **75.1**

表1显示了HRNetV2-W18-small-v2、UHRNet-W18-small及其几种变化的计算成本(GFLOPs)和性能(mIoU)。从U-HRNet-W18-small-va和HRNetV2-W18-small-v2的比较中,我们发现HRNet中最后两个阶段的高分辨率分支不是很有必要。而将小规模的分支做得更深,并在网络的后面放置几个上采样的hr模块作为解码器,都能极大地提高性能,从U-HRNet-W18-small-va到U-HRNet-W18small-ve都是如此。以此类推,我们在U-HRNet-W18-small-ve的基础上,用两个分辨率较低的1/32的模块取代了两个分辨率较低的1/64的模块,进一步提高了网络的性能。最后,我们在Cityscapes val上实现了75.1 mIoU,比HRNetV2-W18-small-v2基线高出5%。此外,我们还研究了hr-模块在所有阶段的不同分布和不同的融合模块。U-HRNetW18-small-vf和U-HRNet-W18-small-vg是两个变体结构,前面和后面的阶段分别被放大了。U-HRNet-W18-small-vh使用融合A而不是融合B作为融合模块。表1中的结果显示,所有这些变体都不如UHRNet-W18-small有竞争力。


4.3.2 与最先进的方法的比较

这里我们将我们提出的模型与最先进的方法进行比较。所提出的模型首先在Imagenet上进行预训练,然后在语义分割数据集上进行微调。训练Imagenet的配置也与[67]保持一致。

表2:对Cityscapes val的语义分割结果(单尺度和无翻转)。GFLOPs是根据输入尺寸1024×2048计算的。U-HRNet-W48的表现优于HRNet,其GFLOPs几乎相同,而其他有代表性的语境方法(Deeplab和PSPNet)的GFLOPs则小得多。(D- = Dilated-)
backboneGFLOPsmIoU
MD(Enhanced) [73]MobileNetV1240.267.3
ResNet18(1.0)ResNet18477.669.1
MobileNetV2Plus [46]MobileNetV2320.970.1
HRNetV2 [67]HRNetV2-W18-small-v131.170.3
HRNetV2 [67]HRNetV2-W18-small-v271.676.3
U-HRNetU-HRNet-W18-small73.178.5
U-Net++ [87]ResNet-101748.575.5
D-ResNet [24]D-ResNet-1011661.675.7
DeepLabv3 [5]D-ResNet-1011778.778.5
DeepLabv3+ [6]D-Xception-711444.679.6
PSPNet [83]D-ResNet-1012017.679.7
HRNetV2 [67]HRNetV2-W48696.281.1
U-HRNetU-HRNet-W48698.681.9
HRNetV2+OCR [77]HRNetV2-W481206.381.6
U-HRNet+OCRU-HRNet-W481222.382.3

城市景观的结果。我们在表2中报告了UHRNet和其他最先进的方法在Cityscapes数据集上的GFLOPs和mIoU结果:(i)U-HRNetW18-small的GFLOPs与HRNetV2-W18small相似,达到78.5 mIoU,比HRNetV2-W18-small-v2高出2.2分,并且以较大的幅度超过其他小型模型,计算量也较小。(ii) U-HRNet-W48的GFLOPs与HRNetV2-W48相似,实现了81.9 mIoU,比HRNetV2-W48提高了0.8个百分点,并且以较大的幅度超过了其他主流的大型模型,计算成本也低得多。

表3:城市景观测试的语义分割结果(多尺度和翻转)。我们使用U-HRNet-W48进行比较,其计算复杂度与HRNetV2W48和基于dilated-ResNet-101(D- = Dilated-)的网络相当。我们的结果在四个评价指标方面都很出色。

表3提供了U-HRNet在Cityscapes测试集上与先进方法的比较。有两种情况:在训练集上学习和在训练+值集上学习。在这两种情况下,U-HRNet-W48都比HRNetV2-W48和其他先进的方法表现更好。

值得一提的是,U-HRNet-W48只用了57.9%(698.6/1206.3)的GFLOPs就实现了与HRNetV2-W48+OCR在价值和测试集上相当的mIoU。此外,通过添加OCR模块,它可以在测试集上进一步达到82.9 mIoU,创造了新的最先进的水平。

表4:ADE20K值的语义分割结果(多尺度和翻转)。(D- = Dilated-)。
backbonemIoU
PSPNet [83]D-ResNet-10143.29
PSANet [84]D-ResNet-10143.77
EncNet [78]D-ResNet-10144.65
SFNet [38]D-ResNet-10144.67
CFNet [79]D-ResNet-10144.89
CCNet [27]D-ResNet-10145.22
DANet [18]D-ResNet-101 + multi-grid45.22
ANNet [88]D-ResNet-10145.24
APCNet [23]D-ResNet-10145.38
ACNet [19]D-ResNet-101 + multi-grid 45.90
HRNet [67]HRNetV2-W4844.20
U-HRNetU-HRNet-W4846.38
HRNet+OCR [77]HRNetV2-W4845.66
U-HRNet+OCRU-HRNet-W4847.75

ADE20K上的结果表4显示了我们提出的方法与最先进的方法在ADE20K值集上的比较。U-HRNet-W48比HRNetV2W48高出2.18分,并且比其他先进的方法表现得更好。此外,U-HRNet-W48+OCR取得了47.75 mIoU的成绩,大大推动了最先进的方法的发展。

表5:LIP val(翻转)的语义分割结果。我们的方法的整体性能是最好的。(D- = Dilated-)
backboneextra.pixe acc.avg. acc.mIoU
Attention+SSL [22]VGG16Pose84.3654.9444.73
DeepLabV3+ [6]D-ResNet-101-84.0955.6244.80
MMAN [49]D-ResNet-101---46.81
SS-NAN [85]ResNet-101Pose87.5956.0347.92
MuLA [54]HourglassPose88.5060.5049.30
JPPNet [39]D-ResNet-101Pose86.3962.3251.37
CE2P [58]D-ResNet-101Edge87.3763.2053.10
HRNetV2 [67]HRNetV2-W48N88.2167.4355.90
U-HRNetU-HRNetV2-W48N88.3467.6556.66
HRNetV2+OCR [77]HRNetV2-W48N88.2467.8456.48
U-HRNet+OCRU-HRNetV2-W48N88.3468.2956.99

LIP的结果表5显示了UHRNet与最先进的方法在LIP值集上的比较。UHRNet-W48在计算成本相似的情况下,比HRNetV2-W48在mIoU上获得了0.76分,而且在不使用姿势和边缘等额外信息的情况下,也比其他方法表现更好。而U-HRNet-W48+OCR达到了56.99 mIoU,这也是一个新的先进水平。

表6: Synapse多器官CT数据集的语义分割结果。GFLOPs是按输入尺寸224×224计算的。我们的方法的总体性能是最好的。
backboneGFLOPsaverage DSC ↑average HD ↓
V -Net [50]V -Net-68.81
DARR [20]V -Net-69.77
U-Net [57]ResNet-50-74.6836.87
AttnUNet [60]ResNet-50-75.5736.97
TransUNet [3]ResNet-50-ViT14.0277.4831.69
U-HRNetU-HRNetV2-W4817.0177.4929.64

Synapse多器官CT的结果。如表6所示,U-HRNet-W48明显优于U-Net系列网络。特别是,与最近的基于变压器的TransUNet相比,U-HRNet-W48仅在增加几个GFLOPs的情况下就获得了2.05毫米的改进。此外,U-HRNet是完全卷积的,没有张量之间的外积操作,这比基于 transformer的网络对计算更友好。


5. 深度估计

深度估计是一个预测图像中每个像素的深度值的问题。它是场景理解中一个典型的密集回归任务。在这里,我们在一个广泛使用的数据集NYUDv2上进行了一定量的实验,并展示了有竞争力的结果。


5.1. 数据集

NYUD-V2。NYU深度V2(NYUD-V2)数据集包含120K RGB-深度对,尺寸为480×640,由微软Kinect从464个不同的室内场景获取。除了整个数据集之外,还有官方注释的1449张室内图像(NYUD-Small),其中795张图像被拆开用于训练。按照以前的工作[33, 71],我们使用其他654张图像作为测试集,在整个深度估计和特征裁剪的实验中进行。为了验证我们方法的可扩展性,我们还使用了一个大型数据集,在本文中命名为NYUD-Large,用于训练。该数据集包含由[33]发布的24231个RGB深度对。


5.2. 实施细节

网络结构。我们采用与语义分割相同的网络结构,只有最后一个卷积的输出通道的数量与深度估计相适应,与[65]中的实现相同。

训练细节。使用与[65]中描述的相同的数据增强策略,RGB-深度对以1、1.2、1.5中的选定比例随机缩放,并随机进行水平翻转。对于训练配置,采用了初始学习率为1e-4、权重衰减为1e-4的Adam优化器,而学习率衰减则采用了多项式计划。对于NYUD-Small,浴盆大小和总次数分别被设定为6和80,而对于NYUD-Large,则是16和50。所有的实验都进行了Imagenet预训练。


5.3.评价指标

按照以前的方法[1,71],我们使用六个常用的指标来定量评估单眼深度估计的性能:平均绝对相对误差(absrel),平均对数误差(log10),均方根误差(rms),以及阈值(δi < 1.25i,i = 1, 2, 3)下的准确性。


5.4. 实验结果

表7:NYUD-Small和NYUD-Large数据集的深度估计结果。通过我们的U-HRNet骨干网,在所有的评估指标上性能都得到了提高

表8:与NYUD上的先进技术比较。除了Wei等人[71]开发了一个强大的基于3D的方法外,我们的方法比大多数作品表现得更好。

表7所示,在NYUD-Small和NYUD-Large上,U-HRNet都比HRNetV2有明显的优势,特别是小模型,在NYUD-Small和NYUD-Large上的rmse分别比基线HRNetV2-W18-small高出0.057和0.044。同时,我们的方法在NYUDv2上也能与最先进的方法竞争。如表8所示,我们的U-HRNet-W48达到了0.440的rmse,优于之前的大多数方法。更令人印象深刻的是,U-HRNet-W18-small也获得了非常有竞争力的0.456的均方根值,而没有任何其他额外的技巧或模块进行改进。这些都表明,我们的模型在密集回归任务上也能很好地工作。


6. 结论

在本文中,我们提出了一个用于密集预测任务的U型高分辨网络。它与现有的高分辨率网络有两个根本的区别:(i)U-HRNet在具有最强语义表示的特征图之后增加了更多的阶段,这使得这种表示可以被充分地用于进一步推理。(ii)U-HRNet放宽了所有分辨率需要平行计算的约束,这使得网络可以在低分辨率阶段分配更多的计算,并获得更强的语义表示。U-HRNet已经被证实在几个数据集的语义分割和深度估计上比现有的高分辨率网络更有效,并且我们将在更多的其他密集预测任务上进行探索,如超分辨率、绘画、图像增强等等。


References

[1] Ibraheem Alhashim and Peter Wonka. High quality monocular depth estimation via transfer learning. arXiv preprint arXiv:1812.11941, 2018. 3, 8
[2] Ayan Chakrabarti, Jingyu Shao, and Greg Shakhnarovich.Depth from a single image by harmonizing overcomplete local network predictions. In Advances in Neural Information Processing Systems, pages 2658–2666, 2016. 3, 8
[3] Jieneng Chen, Y ongyi Lu, Qihang Y u, Xiangde Luo, Ehsan Adeli, Yan Wang, Le Lu, Alan L Y uille, and Y uyin Zhou.Transunet: Transformers make strong encoders for medical image segmentation. arXiv preprint arXiv:2102.04306,2021. 6, 7
[4] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos,Kevin Murphy, and Alan L. Y uille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4):834–848,2018. 1, 2, 7
[5] Liang-Chieh Chen, George Papandreou, Florian Schroff, and Hartwig Adam. Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587,2017. 1, 3, 6
[6] Liang-Chieh Chen, Y ukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable convolution for semantic image segmentation. In European Conference on Computer Vision, September 2018.3, 6, 7
[7] Y uru Chen, Haitao Zhao, and Zhengwei Hu. Attention-based context aggregation network for monocular depth estimation.arXiv preprint arXiv:1901.10137, 2019. 8
[8] Yanwen Chong, Congchong Nie, Y ulong Tao, Xiaoshu Chen, and Shaoming Pan. Hcnet: Hierarchical context network for semantic segmentation. IEEE Access, 8:179213–179223, 2020. 3
[9] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, and Bernt Schiele. The cityscapes dataset for semantic urban scene understanding. In IEEE Conference on Computer Vision and Pattern Recognition,2016. 5
[10] Henghui Ding, Xudong Jiang, Bing Shuai, Ai Qun Liu, and Gang Wang. Semantic correlation promoted shape-variant context for segmentation. In IEEE Conference on Computer Vision and Pattern Recognition, June 2019. 7
[11] Henghui Ding, Xudong Jiang, Bing Shuai, Ai Qun Liu, and Gang Wang. Context contrasted feature and gated multiscale aggregation for scene segmentation. In IEEE Conference on Computer Vision and Pattern Recognition, pages 2393–2402, 2018. 2
[12] David Eigen and Rob Fergus. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture. In Proceedings of the IEEE international conference on computer vision, pages 2650–2658,2015. 3, 8
[13] David Eigen, Christian Puhrsch, and Rob Fergus. Depth map prediction from a single image using a multi-scale deep net work. In Advances in Neural Information Processing Systems, 2014. 3
[14] Xiaohan Fei, Alex Wong, and Stefano Soatto. Geosupervised visual depth prediction. IEEE Robotics and Automation Letters, 4(2):1661–1668, 2019. 3
[15] Damien Fourure, Rémi Emonet, Élisa Fromont, Damien Muselet, Alain Trémeau, and Christian Wolf. Residual convdeconv grid network for semantic segmentation. In British Machine Vision Conference, 2017. 7
[16] Huan Fu, Mingming Gong, Chaohui Wang, Kayhan Batmanghelich, and Dacheng Tao. Deep ordinal regression network for monocular depth estimation. In IEEE Conference on Computer Vision and Pattern Recognition, pages 2002–2011, 2018. 3, 8
[17] Jun Fu, Jing Liu, Haijie Tian, Y ong Li, Y ongjun Bao, Zhiwei Fang, and Hanqing Lu. Dual attention network for scene segmentation. In IEEE Conference on Computer Vision and Pattern Recognition, June 2019. 3, 7
[18] Jun Fu, Jing Liu, Haijie Tian, Y ong Li, Y ongjun Bao, Zhiwei Fang, and Hanqing Lu. Dual attention network for scene segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3146–3154, 2019. 7
[19] Jun Fu, Jing Liu, Y uhang Wang, Y ong Li, Y ongjun Bao, Jinhui Tang, and Hanqing Lu. Adaptive context network for scene parsing. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 6748–6757,2019. 7
[20] Shuhao Fu, Y ongyi Lu, Yan Wang, Y uyin Zhou, Wei Shen,Elliot Fishman, and Alan Y uille. Domain adaptive relational reasoning for 3d multi-organ segmentation. In International Conference on Medical Image Computing and ComputerAssisted Intervention, pages 656–666. Springer, 2020. 7
[21] Golnaz Ghiasi and Charless C. Fowlkes. Laplacian pyramid reconstruction and refinement for semantic segmentation. In European Conference on Computer Vision, pages 519–534,2016. 7
[22] Ke Gong, Xiaodan Liang, Dongyu Zhang, Xiaohui Shen,and Liang Lin. Look into person: Self-supervised structuresensitive learning and a new benchmark for human parsing.In IEEE Conference on Computer Vision and Pattern Recognition, pages 932–940, 2017. 5, 7
[23] Junjun He, Zhongying Deng, Lei Zhou, Yali Wang, and Y u Qiao. Adaptive pyramid context network for semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7519–7528, 2019. 7
[24] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Deep residual learning for image recognition. In IEEE Conference on Computer Vision and Pattern Recognition, pages 770–778, 2016. 2, 6
[25] Junjie Hu, Mete Ozay, Yan Zhang, and Takayuki Okatani.Revisiting single image depth estimation: Toward higher resolution maps with accurate object boundaries. In IEEE Winter Conference on Applications of Computer Vision, pages 1043–1051. IEEE, 2019. 3, 8
[26] Gao Huang, Zhuang Liu, Laurens V an Der Maaten, and Kilian Q Weinberger. Densely connected convolutional networks. In IEEE Conference on Computer Vision and Pattern Recognition, pages 4700–4708, 2017. 2
[27] Zilong Huang, Xinggang Wang, Lichao Huang, Chang Huang, Y unchao Wei, and Wenyu Liu. Ccnet: Criss-cross attention for semantic segmentation. In IEEE International Conference on Computer Vision, pages 603–612, 2019. 7
[28] Xiaojie Jin, Xin Li, Huaxin Xiao, Xiaohui Shen, Zhe Lin,Jimei Yang, Y unpeng Chen, Jian Dong, Luoqi Liu, Zequn Jie, Jiashi Feng, and Shuicheng Yan. Video scene parsing with predictive feature learning. In IEEE International Conference on Computer Vision, pages 5581–5589, 2017. 7
[29] Tsung-Wei Ke, Jyh-Jing Hwang, Ziwei Liu, and Stella X.Y u. Adaptive affinity fields for semantic segmentation. In European Conference on Computer Vision, pages 605–621,2018. 7
[30] Shu Kong and Charless C. Fowlkes. Recurrent scene parsing with perspective understanding in the loop. In IEEE Conference on Computer Vision and Pattern Recognition, pages 956–965, 2018. 7
[31] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton.Imagenet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems,141(5):1097–1105, 2012. 2
[32] Iro Laina, Christian Rupprecht, V asileios Belagiannis, Federico Tombari, and Nassir Navab. Deeper depth prediction with fully convolutional residual networks. In 2016 F ourth international conference on 3D vision, pages 239–248. IEEE, 2016. 3, 8
[33] Jin Han Lee, Myung-Kyu Han, Dong Wook Ko, and Il Hong Suh. From big to small: Multi-scale local planar guidance for monocular depth estimation. arXiv preprint arXiv:1907.10326, 2019. 8
[34] Hanchao Li, Pengfei Xiong, Jie An, and Lingxue Wang.Pyramid attention network for semantic segmentation. In British Machine Vision Conference, page 285, 2018. 7
[35] Jun Li, Reinhard Klein, and Angela Yao. A two-streamed network for estimating fine-scaled depth maps from single rgb images. In Proceedings of the IEEE International Conference on Computer Vision, pages 3372–3380, 2017. 3, 8
[36] Ruibo Li, Ke Xian, Chunhua Shen, Zhiguo Cao, Hao Lu, and Lingxiao Hang. Deep attention-based classification network for robust depth prediction. In Asian Conference on Computer Vision, 2018. 3
[37] Xiaoxiao Li, Ziwei Liu, Ping Luo, Chen Change Loy, and Xiaoou Tang. Not all pixels are equal: Difficulty-aware semantic segmentation via deep layer cascade. In IEEE Conference on Computer Vision and Pattern Recognition, pages 6459–6468, 2017. 7
[38] Xiangtai Li, Ansheng Y ou, Zhen Zhu, Houlong Zhao, Maoke Yang, Kuiyuan Yang, Shaohua Tan, and Y unhai Tong. Semantic flow for fast and accurate scene parsing. In European Conference on Computer Vision, pages 775–793. Springer,2020. 7
[39] Xiaodan Liang, Ke Gong, Xiaohui Shen, and Liang Lin. Look into person: Joint body parsing & pose estimation net work and a new benchmark. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(4):871–885, 2018. 7
[40] Xiaodan Liang, Hongfei Zhou, and Eric Xing. Dynamic-structured semantic propagation network. In IEEE Confer-ence on Computer Vision and Pattern Recognition, pages752–761, 2018. 7
[41] Guosheng Lin, Anton Milan, Chunhua Shen, and Ian Reid. Refinenet: Multi-path refinement networks for high-resolution semantic segmentation. In IEEE Conference on Computer Vision and Pattern Recognition, pages 1925–1934, 2017. 2, 7
[42] Guosheng Lin, Chunhua Shen, Anton V an Den Hengel, and Ian Reid. Efficient piecewise training of deep structured models for semantic segmentation. In IEEE Conference on Computer Vision and Pattern Recognition, pages 3194–3203, 2016. 2, 7
[43] Chenxi Liu, Liang-Chieh Chen, Florian Schroff, Hartwig Adam, Wei Hua, Alan Y uille, and Li Fei-Fei. Auto-deeplab:Hierarchical neural architecture search for semantic image segmentation. arXiv preprint arXiv:1901.02985, 2019. 7
[44] Fayao Liu, Chunhua Shen, and Guosheng Lin. Deep convolutional neural fields for depth estimation from a single image. In IEEE Conference on Computer Vision and Pattern Recognition, 2015. 3
[45] Fayao Liu, Chunhua Shen, Guosheng Lin, and Ian Reid.Learning depth from single monocular images using deep convolutional neural fields. IEEE transactions on pattern analysis and machine intelligence, 38(10):2024–2039, 2015.3
[46] Huijun Liu. Lightnet: Light-weight networks for semantic
image segmentation, 2018. 6
[47] Yi Liu, Lutao Chu, Guowei Chen, Zewu Wu, Zeyu Chen,Baohua Lai, and Y uying Hao. Paddleseg: A high-efficient development toolkit for image segmentation. arXiv preprint arXiv:2101.06175, 2021. 1
[48] Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmentation. In IEEE Conference on Computer Vision and Pattern Recognition,pages 3431–3440, 2015. 1, 2
[49] Yawei Luo, Zhedong Zheng, Liang Zheng, Tao Guan, Junqing Y u, and Yi Yang. Macro-micro adversarial network for human parsing. In European Conference on Computer Vision, pages 424–440, 2018. 7
[50] F Milletari, N Navab, SA V Ahmadi, and V-net. Fully convolutional neural networks for volumetric medical image segmentation. In Proceedings of the 2016 F ourth International Conference on 3D Vision (3DV), pages 565–571, 2016. 7
[51] Fausto Milletari, Nassir Navab, and Seyed-Ahmad Ahmadi.V-net: Fully convolutional neural networks for volumetric medical image segmentation. In 2016 fourth international conference on 3D vision, pages 565–571. IEEE, 2016. 2
[52] Shervin Minaee, Y uri Boykov, Fatih Porikli, Antonio Plaza,Nasser Kehtarnavaz, and Demetri Terzopoulos. Image segmentation using deep learning: A survey. arXiv preprint arXiv:2001.05566, 2020. 2
[53] Lichao Mou, Y uansheng Hua, and Xiao Xiang Zhu. A relation-augmented fully convolutional network for semantic segmentation in aerial scenes. In IEEE Conference on Computer Vision and Pattern Recognition, June 2019. 3
[54] Xuecheng Nie, Jiashi Feng, and Shuicheng Yan. Mutual learning to adapt for joint human parsing and pose estima-tion. In European Conference on Computer Vision, pages519–534, 2018. 7
[55] Chao Peng, Xiangyu Zhang, Gang Y u, Guiming Luo, and Jian Sun. Large kernel matters - improve semantic segmen-tation by global convolutional network. In IEEE Conference on Computer Vision and Pattern Recognition, pages 1743–1751, 2017. 7
[56] Tobias Pohlen, Alexander Hermans, Markus Mathias, and Bastian Leibe. Full-resolution residual networks for semantic segmentation in street scenes. In IEEE Conference on Computer Vision and Pattern Recognition, pages 3309–3318, 2017. 7
[57] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention, pages 234–241.Springer, 2015. 1, 2, 3, 7
[58] Tao Ruan, Ting Liu, Zilong Huang, Y unchao Wei, Shikui Wei, and Yao Zhao. Devil in the details: Towards accurate single and multiple human parsing. In AAAI Conference on Artificial Intelligence, volume 33, pages 4814–4821, 2019. 7
[59] Ashutosh Saxena, Min Sun, and Andrew Y Ng. Learning 3-d scene structure from a single still image. In IEEE International Conference on Computer Vision, pages 1–8. IEEE,2007. 3
[60] Jo Schlemper, Ozan Oktay, Michiel Schaap, Mattias Heinrich, Bernhard Kainz, Ben Glocker, and Daniel Rueckert.Attention gated networks: Learning to leverage salient regions in medical images. Medical image analysis, 53:197–207, 2019. 7
[61] Alexander G Schwing and Raquel Urtasun. Fully connected deep structured networks. arXiv preprint arXiv:1503.02351,2015. 2
[62] Karen Simonyan and Andrew Zisserman. V ery deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. 2
[63] Ke Sun, Yang Zhao, Borui Jiang, Tianheng Cheng, Bin Xiao,Dong Liu, Yadong Mu, Xinggang Wang, Wenyu Liu, and Jingdong Wang. High-resolution representations for labeling pixels and regions. arXiv preprint arXiv:1904.04514, 2019.1, 3
[64] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet,Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent V anhoucke, and Andrew Rabinovich. Going deeper with convolutions. In IEEE Conference on Computer Vision and Pattern Recognition, June 2015. 2
[65] Simon V andenhende, Stamatios Georgoulis, and Luc V an Gool. Mti-net: Multi-scale task interaction networks for multi-task learning. arXiv preprint arXiv:2001.06902, 2020.8
[66] Ashish V aswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, pages 5998–6008, 2017. 3
[67] J. Wang, K. Sun, T. Cheng, B. Jiang, C. Deng, Y . Zhao, D.Liu, Y . Mu, M. Tan, X. Wang, W. Liu, and B. Xiao. Deep high-resolution representation learning for visual recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, pages 1–1, 2020. 1, 3, 5, 6, 7, 8
[68] Lijun Wang, Jianming Zhang, Oliver Wang, Zhe Lin, and Huchuan Lu. Sdc-depth: Semantic divide-and-conquer network for monocular depth estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 541–550, 2020. 8
[69] Panqu Wang, Pengfei Chen, Ye Y uan, Ding Liu, Zehua Huang, Xiaodi Hou, and Garrison W. Cottrell. Understanding convolution for semantic segmentation. In IEEE Winter Conference on Applications of Computer Vision, 2018. 7
[70] Peng Wang, Xiaohui Shen, Zhe Lin, Scott Cohen, Brian Price, and Alan L Y uille. Towards unified depth and semantic prediction from a single image. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2800–2809, 2015. 3
[71] Yin Wei, Yifan Liu, Chunhua Shen, and Y ouliang Yan. Enforcing geometric constraints of virtual normal for depth prediction. IEEE International Conference on Computer Vision,2019. 3, 8
[72] Zifeng Wu, Chunhua Shen, and Anton V an Den Hengel.Wider or deeper: Revisiting the resnet model for visual recognition. Pattern Recognition, 90:119–133, 2019. 7
[73] Jiafeng Xie, Bing Shuai, Jian-Fang Hu, Jingyang Lin, and Wei-Shi Zheng. Improving fast segmentation with teacher-student learning. arXiv preprint arXiv:1810.08476, 2018. 6
[74] Dan Xu, Wanli Ouyang, Xiaogang Wang, and Nicu Sebe.Pad-net: Multi-tasks guided prediction-and-distillation network for simultaneous depth estimation and scene parsing.In IEEE Conference on Computer Vision and Pattern Recog-nition, pages 675–684, 2018. 7
[75] Changqian Y u, Jingbo Wang, Chao Peng, Changxin Gao,Gang Y u, and Nong Sang. Bisenet: Bilateral segmentation network for real-time semantic segmentation. In European Conference on Computer Vision, pages 334–349, 2018. 7
[76] Changqian Y u, Jingbo Wang, Chao Peng, Changxin Gao,Gang Y u, and Nong Sang. Learning a discriminative feature network for semantic segmentation. In IEEE Conference on Computer Vision and Pattern Recognition, pages 1857–1866, 2018. 7
[77] Y uhui Y uan, Xilin Chen, and Jingdong Wang. Objectcontextual representations for semantic segmentation. In ECCV, 2020. 2, 3, 6, 7
[78] Hang Zhang, Kristin Dana, Jianping Shi, Zhongyue Zhang,Xiaogang Wang, Ambrish Tyagi, and Amit Agrawal. Context encoding for semantic segmentation. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, pages 7151–7160, 2018. 7
[79] Hang Zhang, Han Zhang, Chenguang Wang, and Junyuan Xie. Co-occurrent features in semantic segmentation. In IEEE Conference on Computer Vision and Pattern Recognition, June 2019. 7
[80] Rui Zhang, Sheng Tang, Y ongdong Zhang, Jintao Li, and Shuicheng Yan. Scale-adaptive convolutions for scene parsing. In IEEE International Conference on Computer Vision,pages 2050–2058, 2017. 7
[81] Zhenyu Zhang, Zhen Cui, Chunyan Xu, Yan Yan, Nicu Sebe,and Jian Yang. Pattern-affinitive propagation across depth,surface normal and semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4106–4115, 2019. 8
[82] Zhenli Zhang, Xiangyu Zhang, Chao Peng, Xiangyang Xue,and Jian Sun. Exfuse: Enhancing feature fusion for semantic segmentation. In European Conference on Computer Vision,pages 269–284, 2018. 2
[83] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In IEEE Conference on Computer Vision and Pattern Recognition, July 2017. 3, 6, 7
[84] Hengshuang Zhao, Yi Zhang, Shu Liu, Jianping ShiChen Change Loy, Dahua Lin, and Jiaya Jia. Psanet: Pointwise spatial attention network for scene parsing. In European Conference on Computer Vision, pages 270–286, 2018. 7
[85] Jian Zhao, Jianshu Li, Xuecheng Nie, Fang Zhao, Y unpeng Chen, Zhecan Wang, Jiashi Feng, and Shuicheng Yan. Selfsupervised neural aggregation networks for human parsing.In Workshop of IEEE Conference on Computer Vision and Pattern Recognition, pages 1595–1603, 2017. 7
[86] Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, and Antonio Torralba. Scene parsing through ade20k dataset. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 633–641,
2017. 5
[87] Zongwei Zhou, Md Mahfuzur Rahman Siddiquee, Nima Tajbakhsh, and Jianming Liang. Unet++: A nested u-net architecture for medical image segmentation. In Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support, pages 3–11. Springer, 2018. 1, 6
[88] Zhen Zhu, Mengde Xu, Song Bai, Tengteng Huang, and Xiang Bai. Asymmetric non-local neural networks for semantic segmentation. In IEEE International Conference on Computer Vision, pages 593–602, 2019. 7

;