Bootstrap

一种基于深度卷积神经网络(DCNN)用于于头发和面部皮肤实时分割方法

团队信息

摘要

现代的语义分割方法通常过于关注模型的准确性,因此引入繁琐的主干,这会带来沉重的计算负担和内存占用。为了解决这个问题,作者提出了一种基于深度卷积神经网络(DCNN)的高效分割方法,用于头发和面部皮肤分割任务,该方法在三个基准数据集上实现了速度和性能之间的显着权衡。据我们所知,由于外界环境因素(例如照明和背景噪声)的影响,肤色分类的准确性通常不令人满意。因此,使用分割后的人脸来获得特定的人脸区域,并进一步利用色矩算法提取其色彩特征。具体来说,对于224×224标准输入,使用我们的高分辨率空间细节信息和低分辨率上下文信息融合网络(HLNet),在CPU环境下,我们在超过16 FPS的Figaro1k数据集上实现了90.73%的像素精度。在CamVid数据集上的其他实验进一步证实了所提出模型的普遍性。进一步使用蒙版的颜色矩进行肤色等级评估,大约80%的分类精度证明了该方案的可行性。

介绍

由于AR(增强现实)技术在各个领域中的广泛应用,近来一直也是热点领域,而使用最广泛的是美容行业。其中,自动染发(图1)是美容行业的主要应用之一。

图1自动染发示例。 (a)输入RGB图像。 (b)我们提出的算法的引导滤波器输出。 (c)最终染色的提炼。

然而,在实际的应用场景中存在巨大的挑战。

  • 首先,由于头发具有非常复杂的形状结构,很难处理准确的边缘信息。尽管现有的语义分割方法对简单对象具有较高的分割性能,但是在头发分割任务的处理中只能获得相对粗糙的蒙版。
  • 其次,几乎所有网络都需要具有大多数移动设备所没有的,具有高计算能力的GPU。它极大地限制了使用场景。
  • 第三,考虑到运行时间限制,条件马尔可夫随机字段(CRF)5不适合边缘处理。

考虑到所有这些因素,实时染发面临巨大挑战。同时,电子商务和与客户的数字互动使人们无需离开家就能购买自己喜欢的产品。其中,强大的产品推荐功能起着重要作用。自动评估肤色水平,可以个性化推荐美容产品。但是,在复杂的环境中,灯光,阴影和成像设备等会影响肤色等级,即使是经验丰富的皮肤治疗师也很难用肉眼判断。

本文致力于使用机器学习和火热的深度学习算法解决这些问题。语义分割是一项高级的视觉任务,其目标是为每个像素分配不同的类别标签。但是,受庞大的主干网限制,现有的最新模型不适合实际部署。作者力求平衡分割网络的效率和速度之间的关系,并为多任务分割方案提供一个更简单,更紧凑的替代方案。为了获得准确的分割结果,应同时考虑全局信息和上下文信息。基于这种观察,作者提出了一种空间和上下文信息融合框架(HLNet),该框架将高维和低维特征图集成到一个网络中。进一步的实验证实,HLNet在效率和准确性之间取得了显着的权衡。考虑到背景照明不利于识别肤色,基于分割的面部和色矩算法提取特征。然后,将遮罩色阶矩输入到功能强大的“随机森林分类器”中,以评估人的肤色水平。

相关工作

  • Lightweight model

自从基于深度学习的开创性工作以来,已经衍生出许多高质量的骨干。但是,由于计算受限的平台(例如,无人机,自动驾驶,智能手机)的要求,人们更加关注网络的效率,而不仅仅是性能。ENet是第一个用于实时场景分割的轻量级网络,它不以端到端的方式应用任何后处理步骤。

有团队引入了级联特征融合单元,以快速实现高质量的分割。图12示出了一种紧凑的编码器模块,其基于流线型架构,该流线型架构使用深度可分离卷积来构建轻型深度神经网络。

还有其他团队将高分辨率的空间细节与以较低分辨率提取的深层特征相结合,产生了超出实时效果的效果。比如最近提出的LEDNet,它在每个残差块中利用了信道分割和混洗来大大降低计算成本,同时保持较高的分割精度。

  • 上下文信息

由于某些细节无法恢复,所以在对特征图进行常规上采样以恢复原始图像大小时。

有团队提出了金字塔池模块,其可以聚合来自不同区域的上下文信息以提高捕获多尺度信息的能力。 他们设计了上下文编码模块以引入全局上下文信息,该全局上下文信息用于捕获场景的上下文语义并选择性地突出显示与特定类别关联的特征图。还有通过捕获基于空间和通道注意机制的丰富上下文相关性来解决场景解析任务,从而显着提高了许多具有挑战性的数据集的性能。

  • 后期处理

通常,上述提到分割方法的质量显然很粗糙,需要额外的后处理操作。后处理机制通常能够改善图像边缘细节和纹理保真度,同时保持与全局信息的高度一致性。 有一种CRF后处理方法,该方法以非端到端的方式克服了不良的定位。CRFasRNN以端到端的方式将CRF迭代推理过程视为RNN操作。该方法可以在移动设备上具有实时性能的毛发消光,缓解CRF的执行时间过长。

  • 颜色特征提取

颜色直方图是许多图像检索系统中广泛使用的颜色特征,它们描述了整个图像中不同颜色的比例。计算颜色直方图需要将颜色空间划分为多个较小的颜色间隔,每个颜色间隔称为一个bin。此过程通常称为颜色量化。由于诸如HSV和LAB之类的色彩空间更符合人们对色彩相似性的主观判断,因此通常不使用RGB空间。

该方法的最大缺点是,它无法表示图像中颜色的局部分布以及每种颜色的空间位置。Color Moment是另一个简单有效的色彩功能。此方法的数学基础是图像可以用瞬间来表示。此外,由于颜色分布信息主要集中在低阶矩上,因此仅颜色的第一阶矩(均值),第二阶矩(方差)和第三阶矩(偏度)就足以表示颜色分布。图像的颜色分布。这种方法的另一个好处是,与颜色直方图相比,它不需要对特征进行矢量化处理。

颜色相关图也是图像颜色分布的一种表达。此功能不仅描绘了某种颜色的像素在整个图像中所占的比例,而且还反映了成对的不同颜色之间的空间相关性。但是,该解决方案在时间上太复杂了。总体而言,作者提出的方法与非对称编码和解码结构密切相关。

方法

作者将详细介绍所提出的用于头发和面部分割的方法和模型框架,以及随后的面部肤色分类的方法论基础。

  • 高低维融合网络

HLNet网络受到HRNet的启发,该网络通过并行连接高到低分辨率卷积在整个过程中保持高分辨率表示。图2说明了作者模型的总体框架。

图2我们的非对称编码器/解码器网络的概述。 蓝色,红色和绿色分别代表背景,发膜已重新着色和面膜已重新着色。 在虚线矩形(也称为InteractionModule)中,不同的箭头表示不同的操作。 ++表示添加操作。

作者通过实验修剪模型参数以提高速度,而不会过度降低性能。此外,现有的最先进的模块被合理地组合以进一步改善网络的性能。

表1给出了网络中所涉及模块的总体说明。

表1 HLNet由不对称编码器和解码器组成。 整个网络主要由标准卷积(Conv2D),深度可分离卷积(DwConv2D),反向残留瓶颈块,上采样(UpSample2D)模块和经过特殊设计的模块组成。

该模型由不同种类的卷积模块,上采样(互补:转置的卷积层可能导致网格化伪影),瓶颈和其他特征图通信模块组成。

在前三层中,我们指的是Fast-SCNN,它采用标准卷积和深度可分离卷积进行快速下采样,以确保底层特征共享。深度可分离卷积有效地减少了模型参数的数量,同时实现了可比的表示能力。上面的卷积统一使用跨度为2和3×3的空间核大小,然后是BN和RELU激活函数。根据FCOS,特征图的低维细节信息促进了小物体的分割,因此叠加低维图层以增强所提出模型的细节表示能力。高分辨率和低分辨率信息的交互作用有助于学习多层信息表示。

在这一部分中利用上述优点,并提出一个信息交互模块(InteractionModule),该模块具有不同分辨率的特征图,以获得非常不错的输出结果。不同的特征图比例尺使用1×1卷积和双线性上采样模块进行通道组合和交换。上采样的特征在于无需学习权重参数,因此放弃了转置卷积运算以节省计算资源。除标准卷积模块外,作者还使用MobileNet提出的有效的反向瓶颈残差块模块,如图3所示:

图3 MobileNet v2版本提出的反向残差模块。 如果步幅大小等于1,则需要其他快捷操作。 通常,t = 6使分离卷积能够提取更高维度的特征,从而有效地提高了模型的表示能力。

随后,我们遵循FFM Attention25将模型集中在具有最多信息的信道特征上,并压制了那些渠道功能并不重要。为了提高多尺度背景信息的准确性,我们还引入了一个多感受野融合块(例如,扩张率设置为2、4、8)。为简单起见,解码器直接在28×28特征图上执行双线性上采样(互补:转置的卷积层可能会导致网格化伪影),并另外添加SOFTMAX层进行逐像素分类。

  • 后期处理

为了追求感知一致性并降低运行时间的复杂性,我们提倡使用导引滤波器来实现边缘保留和去噪。导光滤镜可以有效地抑制梯度反转伪像并产生视觉上令人愉悦的边缘轮廓。给定一个引导图像和一个过滤输入图像,作者的目标是学习一个局部线性模型来描述前者和输出图像之间的关系,同时寻求图像抠像之间的一致性,就像图像抠像一样。

  • 面部肤色分类

第二阶段是对面部肤色进行分类。通常对于亚洲人,我们将其分为瓷白,象牙白,中度,淡黄色和黑色。对于肤色特征,将深度学习用于特征提取是不明智的,因为它的特征空间相对较小,因此容易导致拟合不足。因此,经过反复思考和实验反复试验,选择该方案提取图像的色矩作为要学习的特征,并将其放入经典的机器学习算法中进行学习。考虑到复杂场景中的面部肤色,背景照明对结果有无法治愈的影响。因此,我们采用图像形态学算法和像素级操作来消除背景干扰。

最终,剩余的面部区域用于提取色阶特征,然后输入到机器学习算法中进行学习。就分类器而言,由于其强大的分类能力,我们选择随机森林分类器。如下图中总结了算法1的详细信息。

实验评估

作者评估了三个公共数据集上的头发和皮肤分割的分割性能,并进一步在具有挑战性的基准道路数据集CamVid 上证实了所提议的体系结构的一般性。

通过与现有方案进行比较并进行消融实验,证明了作者提出的方案可以在速度和精度之间取得出色的折衷。下面提到的所有网络都遵循相同的训练策略,除了初始学习率设置。他们使用与面部相关的分割数据集的批量大小为64,动量为0.98,权重衰减为2e-5的微型批量随机梯度下降(SGD)进行训练。

对于CamVid实验,我们使用学习率1e-3的Adam梯度下降策略,因为作者发现它更有利于模型的收敛。前者在配置中采用“ poly”学习率策略,在该策略中,初始率乘以功效0.9,并将初始学习率设置为2.5e-3。在损失函数方面,应用广义骰子损失34来补偿小物体的分割性能。数据扩充包括标准化,随机旋转[-20、20],随机标度[-20、20],随机水平翻转和随机移位[-10、10]。为了公平比较,所有方法均在配备单个NVIDIA GeForce GTX1080Ti GPU的服务器上进行。

图4经过投票机制后,手动标记的面部皮肤色调水平样本。 从左到右,它代表瓷白,象牙白,中等,淡黄色和黑色。 为了对图像分类标准有一致的理解,此处仅使用女演员。

  • 数据库介绍

数据是深度学习的灵魂,因为数据在某种程度上决定了算法的上限。为了确保算法的鲁棒性,有必要构建一个人脸在极端情况下(例如大角度,强遮挡,复杂的光照变化等)的数据集。

  1. 面部和头发分割数据集
  2. 基准CamVid数据集
  3. 带注释的数据集
  • 细分结果

在测试阶段,我们首先使用MTCNN40提取面部ROI。其次,考虑到多余的环境信息对分割背景有一定的促进作用,因此ROI区域在水平和垂直方向上都放大了0.8倍。对于定量评估,使用四个FCN2衍生的指标来评估头发和面部分割算法的性能。

表2显示了我们的方法与文献中方法之间的比较结果。

表2:LFW\CelebA和Figaro1k数据集的分段性能。 对比分析表明,在某些指标上即使参数数量远小于其他两个参数,甚至超过笨重的VGG2网络,我们的网络仍然可以取得出色的结果。

36快速下采样的一个缺点是浅层特征提取不足,因此我们的HLNet稍差于CelebA数据集中的类似VGG的网络(CelebA的面部细节比LFW更清晰)。但是,考虑到运行时间,CPU终端中的每个映像达到63 ms,没有任何技巧。在GPU下,我们可以进一步达到不超过5毫秒的时间。将VGG与HLNet进行比较(64 ms与4.7±0.2 ms)表明,后者效率更高,而性能却相当。

该结论表明,我们可以将该框架进一步应用于内存和电池预算较小的边缘和嵌入式设备。定性分析结果如图5所示:

图5头发分割的样本。 从上到下:RGB图像,地面真相,头发输出,引导输出和头发染色。 最后一栏给出了错误的情况,这也困扰着人类。

后处理使用“导引滤镜”以实现更逼真的边缘效果。消融研究我们在Figaro1k测试数据集上进行消融实验,并遵循相同的训练策略来保证实验的公平性。我们主要评估InteractionModule(IM)和DilatedGroup(DG)组件对结果的影响,如表3所示:

表3在Figaro1k测试集上评估了我们提出的InteractionModule(IM)和DilatedGroup(DG)的效果。

使用三个并行的3×3卷积和比率为1的卷积替换相应的组件作为基线。当我们分别添加DG和IM模块时,相对于基线,mIoU增加1.54%和3.19%。当我们同时应用两个模块时,mIoU显着增加了4.26%。明显的性能提升说明了所提出模型的效率。作者还将CamVid数据集上的方法与现有方法进行比较。采用广泛使用的均值交叉结合(mIoU)来评估分割质量。

结果报告在表4中。

表4. CamVid测试数据集的结果。

与最新模型相比,我们的HLNet可以更快地推断出速度,同时获得可比的性能。

  • 面部肤色分类结果

在实验的第二阶段,使用消融研究来比较不同颜色空间和不同实验方案对结果的影响。

表5:在不同颜色空间中不同方法的分类准确性

在表5中显示面部肤色分类的准确性。使用带有色矩后端的YCrCb空间可获得最佳结果。应该注意的是,在实验之前,首先对数据进行过采样以确保消除类别之间的不平衡。我们只需将数据集分成8:2进行训练和测试,然后使用功能强大的随机森林分类器进行训练。图6给出了此配置的混淆矩阵。从图中可以看出,主要错误是在相邻类别之间,并且这种情况也困扰着受过训练的专业化妆师标记数据时的困扰。

结论

在本文中,作者提出了一种全卷积网络来解决实时segmantic分割问题,从而实现速度和性能之间的权衡。通过对比实验和跨数据集评估,证明了该方法的可行性和推广性。 而且提出一种提取肤色特征的方法,该方法提取蒙版的面部肤色特征并将其扔到随机森林分类器中进行分类。80%的分类精度证明了所提出解决方案的有效性。这项工作的目的是将我们的算法应用于现实情况中基于肤色水平的实时染色,换脸,肤色评级系统和皮肤护理产品推荐。作为未来的工作,作者计划进一步探索色彩特征以提高分类准确性。

论文地址或源码下载地址:关注“图像算法”wx公众号 回复"DCNN",这是一篇非常具有工程参考价值的论文,尤其在美妆产品推荐、小视频直播等应用场景中。

 

;