Bootstrap

Real-Time Neural Style Transfer for Videos(译)—实时的视频风格迁移

Real-Time Neural Style Transfer for Videos

摘要

最近的研究表明前馈卷积网络在图像风格迁移上有很大的潜能。在本文中,我们进一步探索了利用前馈网络完成视频风格迁移的可能性,同时保持视频帧之间的时间一致性。我们的前馈网络通过强制执行连续帧的输出来进行训练,以便在风格上和时间上保持一致。更具体地,提出混合损失:输入帧的内容信息,给定风格图像的风格信息和连续帧的时间信息。为了计算训练阶段的时间损失,提出了一种新的两帧协同训练机制。与现有直接将图像风格迁移网络应用到视频上相比,我们提出的方法使用训练好的网络产生时间上一致的风格化视频,这些视频视觉上看着更流畅。与之前依赖于耗时优化的视频样式传输方法相比,我们的方法实时运行,同时产生有竞争力的视觉结果。

Introduction

最近,通过将深度卷积神经网络(CNN)应用于图像变换任务已经取得了很大进展,其中前馈CNN接收输入图像,可能配备有一些辅助信息,并将其转换为期望的输出图像。这类任务包括风格转移[12,27],语义分割[19],超分辨率[12,7],着色[11,31]等。
将图像处理技术扩展到视频的自然方式是逐帧执行图像风格迁移,然而该方案不可避免地带来时间上的不一致,从而导致严重的闪烁抖动现象。图1中的第二行示出了直接应用Johnson等人的基于前馈网络的图像样式转移方法的示例 [12]视频。可以观察到,由白色矩形标记的放大内容被风格化为两个连续帧之间的不同外观,因此产生闪烁抖动。原因是相邻视频帧之间的微小变化可能被基于帧的前馈网络放大,因此导致明显不同的风格化帧。在文献中,在视频变换之后保留时间一致性的一种解决方案是在帧生成或优化过程期间明确地考虑时间一致性[18,1,12,22]。虽然有效,但它们是特定于案例的方法,因此不能容易地推广到其他问题。其中,Ruder等人的方法。 [22]专为视频风格转移而设计。然而,它依赖于即时消耗优化,并且即使使用预先计算的光流,也需要大约三分钟来处理单个帧。保持时间一致性的另一种解决方案是应用后处理[15,2]。后处理的一个缺点是它只能处理其编辑结果与其输入具有逐像对应关系的图像变换,这不是样式传输服从的情况。此外,两种解决方案都需要为新的输入视频序列计算光流,这阻止了它们用于实时视频样式传输。
在这里插入图片描述
图1 有和没有时间一致性的视频风格迁移,第一行显示了两个连续输入帧和一个给定的样式图像,第二行显示了由Johnson[12]等人的图像风格化方法。第三行显示了我们方法的程式化结果,其中程式化模式保持相同的外观。

鉴于前馈网络对风格迁移人物的效果,一个自然的想法是是否前馈网络可以通过包括时间一致性来适应视频变换任务。在本文中,我们就视频风格化证实了这一点。我们证明前馈网络不仅可以捕获空间域中的内容和风格信息,还可以保持时域中的一致性。我们建议在训练阶段使用混合损失,使空间和时间域中的损失结合在一起。在空间损失监督的辅助下,我们提出的视频风格迁移模型可以很好地保留输入框架的高级抽象内容,并从给定的风格图像中引入新的颜色和图案。同时,同时,由预先计算的光流引导的引入的时间损失使得我们的前馈网络能够捕获连续视频帧之间的时间一致性属性,因此强制我们的模型产生时间上一致的输出。为了能够计算训练阶段的时间损失,提出了一种新的两帧协同训练方法。训练之后,在前向传播过程中不再需要计算光流。我们的实验验证了我们的方法比Johnson等人[12]的方法生成了更多时间上一致的风格化视频。我们的方法的示例结果显示在图1的最后一行中,从中可以看出,风格化的图案不再产生闪烁抖动。实验还证实,我们的方法能够以实时帧速率创建风格化视频,而之前的视频风格化方法[22]需要大约三分钟来处理单个帧。这使我们相信,良好的前馈网络技术具有避免传统视频变换方法的大量计算成本的巨大潜力。
本文的主要贡献有两个方面:

  • 提出了一种新颖的视频实时样式传输方法,该方法完全基于前馈卷积神经网络,避免了动态计算光流。
  • 我们证明了由混合损失监督的前馈卷积神经网络不仅可以很好地对每个视频帧进行风格化,而且还可以保持时间一致性。我们提出的新型双层协同训练方法将时间一致性纳入网络。

相关工作

风格转化旨在将参考图像/视频的风格转换为输入图像/视频。它与颜色转移不同,它不仅传递颜色还可以传递参考的笔触和纹理。图像类比是图像的第一种经典样式传递方法[10],它学习图像块之间的映射。作为图像类比的延伸,Lee等人[16]进一步结合边缘方向以强制执行梯度对齐。最近,Gatys等人 [9]提出通过在预训练的VGG-19网络的高级特征上定义的感知损失运行反向传播,以优化方式执行风格转换[23]。虽然取得了令人印象深刻的风格化结果,但Gatys等人的方法需要相当长的时间才能得到风格化的图像。之后,Johnson等人[12]提出使用VGG-16网络上定义的类似感知损失来训练前馈CNN,以取代耗时的优化过程,该过程实现图像的实时风格转换。为了进一步改进基于CNN的前馈图像样式转换方法,进行了一些后续工作。Li和Wand [17]提出使用神经特征映射的补丁来计算风格损失以转移照片写实风格。Ulyanov等人[28]建议实例标准化代替批量标准化,这给出了更令人愉快的转化结果。Dumoulin等人[8]证明了前馈CNN可以通过引入条件实例归一化来训练以捕获多种不同的风格。
简单地将每个视频帧视为独立图像,上述图像风格转换方法可以直接扩展到视频。然而,在不考虑时间一致性的情况下,这些方法将不可避免地将闪烁伪像带入生成的风格化视频中。为了抑制闪烁伪像并强制实现时间一致性,已经针对不同的任务研究和利用了许多方法[18,15,1,30,14,2,22]。具体而言,Ruder等人 [22]使用光流引导的时间损失进行视频传输。一方面,Ruder等人的方法依赖于优化过程,该过程比前向传递通过前馈网络慢得多。另一方面,光流的即时计算使得这种方法更慢。在本文中,我们表明时间一致性和样式转移可以通过前馈CNN同时学习,这避免了在推理阶段计算光流,从而实现视频的实时样式传输。

方法

我们的风格转移模型由两部分组成:一个风格化网络和一个损失网络,如图2所示。样式化网络将一帧作为输入并产生其相应的风格化输出。在ImageNet分类任务[6]上预先训练的损失网络首先提取风格化输出帧的特征,然后计算损失,这些损失用于训练风格化网络。一方面,这些特征用于计算空间损失,以便评估空间域中的样式转移质量,其是内容损失和样式损失的加权和。内容损失评估输入和风格化输出之间的高层次内容接近度。样式损失测量给定风格图像和风格化输出之间的风格特征接近度。另一方面,在我们的模型中引入了一个新的术语,即时序损失,以加强程式化输出之间的时间一致性。在训练过程中,两个风格化输出帧 x ^ ( t − 1 ) \widehat{x}^{(t-1)} x (t1) x ^ ( t ) \widehat{x}^{(t)} x (t)对应的两个连续的输入帧 x ( t − 1 ) x^{(t-1)} x(t1) x ( t ) x^{(t)} x(t)送入网络去计算时序损失,它参考预先计算光流的相应像素之间的欧式颜色距离。
在这里插入图片描述
我们提出的模型的概述。它由两部分组成:一个风格生成网络和一个损失网络。黑色、绿色和红色矩形分别表示输入帧、输出帧和给定的风格图片。在损失网络上定义包括空间和时间分量的混合损失函数。具体地,针对两个连续帧中的空间损失是独立计算的,而时序损失是基于两帧计算的。这种混合损失用于训练风格化网络。

风格化网络和损失网络在训练过程中完全耦合。由损失网络计算的时空损失用于训练风格化网络。通过足够的训练,风格化网络虽然将一个帧作为输入,但已经编码了从视频数据集学习的时间相干性,因此可以生成时间上一致的风格化视频帧。给定新的输入视频序列,通过样式化网络执行前馈过程来产生风格化的帧,从而实现实时风格化性能。

风格化网络

风格化网络负责将单个视频帧转换为风格化的视频帧。表1概述了风格化网络的结构。
在这里插入图片描述
风格化网络结构,Conv表示卷积块(卷积层+实例标准化+激活函数);Res表示残差块;Deconv表示反卷积块(反卷积层+实例标准化+激活函数).
在三个卷积块之后,特征映射的分辨率减少到输入的四分之一。然后有五个残余块,用于模型快速收敛。然后有两个反卷积块,和一个卷积块,最后获得一个与输入帧有相同分辨率的风格化输出帧。
与用于图像样式传输的现有前馈网络相比[12],我们网络的一个重要好处是它使用较少数量的通道来减小模型大小,使结果可以更快地推断出来,而不会在风格化方面有明显的质量损失。关于模型尺寸的更多讨论可以在4.5.2。此外,我们的样式化网络采用实例标准化[28]代替批量标准化,以实现更好的样式化质量。虽然具有类似的架构,但我们的网络与[12]最明显的区别在于视

;