Bootstrap

UltraSR: Spatial Encoding is a Missing Key for Implicit Image Function-based Arbitrary-Scale Super-R

Ultrasr:空间编码是基于函数的隐式图像任意尺度超分辨率重建中的一个缺失密钥

摘要:

最近NeRF等相关隐式神经表示方法的成功为连续图像表示开辟了一条新的道路,像素值不再需要从存储的离散二维数组中查找,而是可以从连续空间域上的神经网络模型中推断。尽管最近的LIIF工作已经证明这些新方法在任意尺度的超分辨率任务上都能取得很好的性能,但由于对高频纹理的预测不准确,它们的升尺度图像经常会出现结构失真。在这项工作中,我们提出了UltraSR,一种简单而有效的基于隐式图像函数的新型网络设计,其中我们将空间坐标和周期编码与隐式神经表示深度融合。通过广泛的实验和消融研究,我们表明空间编码是通向下一阶段高性能隐式图像功能的关键。我们的UltraSR设置了新的最先进的技术。
在这里插入图片描述

3 .方法

在本节中,我们介绍了UltraSR,一个新的任意尺度SR模型,它能够使用隐式神经表示从LR图像生成任意尺度的SR图像。我们的工作受到最近的NeRF 和LIIF工作的强烈激励。前者证明了将神经绘制与空间编码相结合可以合成具有精细细节的自由视点三维场景,后者证明了一个适当学习的隐式图像函数可以在任意SR尺度上恢复质量令人满意的图像。

与LIIF一样,我们用下面的公式来描述HR域中任意图像的隐式形式:
在这里插入图片描述

其中,s为目标像素在HR域的值,vr为参考位置在LR域的特征向量,δ x为目标像素x与参考位置xr的归一化距离。从LR特征图VLR∈RC × H × W中提取特征向量vr,其空间位置xr与x接近,f θ为参数为θ的网络模拟的隐式图像函数。

3.1 .周期性空间编码

学习如何重建图像的高频部分是SR任务中的关键。最近的许多工作表明,精心设计的空间编码可以帮助网络恢复3D场景中的精细细节。LIIF通过直接将坐标输入到由香草MLP表示的隐式图像函数中,忽略了这些空间编码的重要性。我们从经验上注意到,在没有空间编码的情况下,这些神经表征倾向于产生具有结构扭曲和其他明显伪迹的图像。而且,这些失真和伪影在不同的SR上是持续存在的尺度(见图4),这阻碍了现实世界的应用。我们认为该现象与中最近发现的神经网络偏向于低频信号而对高频信号不敏感相吻合。因此,为了在高频域增强网络,我们的UltraSR使用48D周期空间编码对规则的2D线性空间输入进行扩展:
在这里插入图片描述
其中,频率参数w1,w2,…初始设置为2en,n∈1,2,…,之后在训练中进行微调。我们遵循这一惯例,使用cos和sin作为我们的编码依据。最后,将输入坐标δ x及其空间编码φ ( δx )输入UltraSR中的隐式图像函数,如式( 1 )所示。

如公式3所示,我们的隐式图像表示的三个输入是特征向量、坐标和空间编码。**我们认为二维坐标及其编码比特征向量更为重要。**这样的假设是基于LR中的特征向量无法区分上采样尺度为k的临近k2区域内的HR像素。因此,SR图像中的所有细节纹理必须高度依赖于像素坐标和空间编码。因此,我们调整我们的网络,使这些输入与我们的MLP更紧密地集成在一起。图2展示了UltraSR的整体结构,其中我们将2D坐标与48D编码串联,并将它们馈送到所有隐藏层。这样的融合保证了所有隐藏层可以直接访问输出像素的关键空间信息,并利用空间编码内部的高频提示。

3. 3 .网络细节

除了空间编码和坐标融合外,我们在MLP中加入残差链接,形成残差- MLP ( ResMLP )来增强其生成具有良好SR细节的图像的能力。ResMLP的结构遵循中的约定,其中隐藏特征在激活(见图3)之前每两层之间进行跳跃连接。我们注意到残差链接可以帮助网络恢复高保真度的图像。它通过将低频信息直接传递到后面的层,使网络免于处理低频信息。此外,我们还采用了文献中提到的相同的特征展开、局部集成和单元解码。我们将在下一届会议上展示关于UltraSR和先前工作的结果和比较。

3 . 2 .深度坐标融合

然而,简单的坐标和编码串联并不能为我们提供解决方案。我们没有发现明显的证据表明,如果将这些空间编码输入到LIIF中使用的香草MLP中,输出图像的质量可以立即得到改善[ 9 ]。这也是令人怀疑的,因为最近的神经渲染文章严重依赖于MLP结构,但很少有人研究最优的网络结构。我们发现,MLP在我们的SR任务中有些次优,因为它没有根据网络输入的重要性对其进行优先排序

5 .讨论

在本节中,我们将讨论UltraSR的局限性以及我们的工作可以扩展的三个潜在的未来方向。

编码函数空间。**傅里叶基(即sin和cos)可能是适用于编码空间信息的众多基函数中的一种。**我们的社区缺乏对函数空间中其他类型的基的研究,这些基可能比应用广泛的Fourier基更有效。例如,径向基函数和小波基函数可以成为编码空间信息的有力候选者。我们也可以根据不同的应用场景来推广任务特定的基函数。

SR之外的任务。我们可以将隐式图像函数的概念扩展到SR之外的其他2D视觉任务中。例如,我们可以将我们的框架扩展到分类、检测、分割等判别性任务。迄今为止,我们对这样的扩展还知之甚少,但隐函数的普遍性提示我们在计算机视觉方面应该有更广阔的研究方向。

感知导向的SR。由于SR在极端分辨率尺度上成为一个相当不适定的问题,**我们应该考虑是否可以训练一个网络来以感知导向的方式模拟图像功能,从中我们可以创建极端尺度下的真实感图像。将UltraSR或任何隐含的神经表征与GAN相结合的想法很有吸引力。**这也可能成为下一阶段可视化的神经绘制研究。

6 .结论

我们介绍了一种新颖的任意尺度超分辨率模型UltraSR,该模型将空间编码与隐式图像函数深度结合。我们还通过结果对比和视觉证据揭示了空间编码和坐标融合的重要性,可以有效地减少结构扭曲。总之,在DIV2K数据集上,我们的UltraSR的PSNR性能在所有分辨率尺度下都超过了所有现有技术。我们还在其他5个基准数据集上展示了我们的结果,从这些结果中可以再次证明使用空间编码的优越性。

;