Bootstrap

[小白读文献] Elimination of Unrealistic Artifacts in 3D Gaussian Splatting

摘  要

       三维高斯飞溅( 3DGS )可以在较短的时间内获得较高质量的新视角合成( NVS )结果。然而,当采样率与相机轨迹不对齐时,往往会出现不属于视图的不真实工件,包括漂浮物。这种现象对重建结果的质量有很大的影响。此外,现有的正则化方法在推理速度和优化方面都是无效的。据此,本文提出了一种基于三维扩散模型的场景优化方法- -三维高斯平滑( 3DGS-HD )中非真实感伪影的消除。该方法通过深入理解重建物体的局部结构特征,优化了自适应密度机制,去除了不真实的伪影,显著提高了重建质量。此外,它确保了2D和3D视图之间的一致性。实验结果表明,该方法在优化方面有明显的改进,特别是在物体级重建任务中。

一、介绍

       近年来,新视角合成(NVS)技术在自动驾驶、虚拟现实/增强现实( VR / AR )、数据增强等领域的应用发展迅速。特别是神经辐射场( Neural Radiance Fields,NeRF ) [ 1 ],一类仅以一组2D图像作为输入的低成本神经辐射场三维重建方法,使该领域发生了革命性的变化。NeRF使用多层感知器( MLP )隐神经网络来表示场景,并通过渲染沿相机射线的可微体以及估计颜色和密度来实现新视图合成。虽然NeRF [1]在静态场景中取得了高保真度的重建结果,但其重建过程缓慢,需要数小时甚至数十小时。因此,许多研究人员对渲染过程、训练和推理时间以及重建质量进行了优化,并取得了一定的成功。

       三维高斯飞溅(3DGS) [2],一种基于辐射场的快速三维重建方法的提出,使研究人员确定了一种更令人满意的NVS方法。3DGS [2]同样接受2D图像作为输入,并使用显示高斯椭球执行抛雪球,从而以微光栅化的方式完成新视图的渲染。然而,在实际重建过程中使用3DGS [2],输入图像的视角通常表现出显著的可变性,这与具有固定视角的合成数据集不同。此外,3DGS在不同采样率下无法保证高保真度,得到的初始稀疏点云无法与每幅输入图像的相机位置精确对齐,以及3DGS [ 2 ]在合成新视点时依赖于图像和稀疏点云的数量进行散点绘制推断等诸多原因。因此,不属于指定视点的伪影,包括漂浮物,频繁地出现在初始的三维重建模型上,这对重建质量产生了负面影响。

        因此,本文提出了基于三维扩散模型的场景优化方法3D Gaussian( 3DGS-HD )中非真实感伪影的消除。该方法旨在促进3DGS [2]对象的全面重建,通过对局部场景的深入理解,优化自适应密度控制机制,排除浮动对象,以提高三维重建质量。这使得本研究中的正则化过程即使在输入信息较少的某个视点下也能表现出优异的重建性能,同时不依赖于三维扩散模型训练数据集的类别限制[ 3 ]。大量的实验对比表明,本研究的优化是有效的,并且在不同的场景数据集上优于原生的3DGS [ 2 ]模型。

二、研究方法

1.  3DGS-HD

       本研究提出了一种基于三维扩散模型的场景优化方法。目标是消除不属于视图的工件,包括漂浮物。从3DGS重建的模型对象中选择局部立方体[2],然后进行预处理,将其输入到训练和定制的3D扩散模型中,完成生成驱动的理解任务。通过密度分数蒸馏分数( Density Score Distillation Score,DSDS ) [4]损失函数对密度分布进行惩罚,消除伪影并优化3DGS [2]重建的模型对象,以确保从2D到3D视图的一致性。

2.   3D扩散模型

大多数现有的扩散模型优先分析全局结构,依赖于预定义的数据集类别,不足以准确地解决复杂三维场景的复杂细节。因此,本研究将去噪扩散概率模型( DDPM ) [5]与稀疏标注(3DU - Net) [ 6 ]架构中的学习稠密体分割相结合,开发了一个定制的三维扩散模型,用于局部三维场景生成驱动的理解。与先前的全局或局部单结构分析相比,本研究中定制的3D扩散模型显示出出色的能力,可以整合空间上下文信息,准确地预测噪声张量分布,通过使用马尔可夫链Monte Carlo( MCMC ) [ 7 ]采样和变分推断方法,逐步恢复清晰的结构细节,最终将几何特征内化为先验知识,从而促进局部3D场景理解的生成。

        在定制化三维扩散模型训练的初始阶段,为了增强数据的多样性、模型的泛化能力和鲁棒性,沿三维物体表面随机提取多个大小从物体边界体积的5%到25%不等的局部立方体。然后从ShapeNetCore.v2 [8]数据集中选择一个随机的数据网格后,将这些立方体体素化。值得注意的是,一些随机抽取的局部立方体中可能包含离群点,这些离群点不会形成单个体素的相干结构[9]。现对局部立方体进行动态26邻域连通性检测[10],标记初始异常值O_{initial},以方便后续的去噪惩罚,提高数据纯度。

       在这种情况下,R表示在指定的局部立方体内存在的体素总数。类似地,\upsilon _{s}表示第s个体素,\left | R\left ( \nu _{s} \right ) \right |表示ν s邻域内的体素个数,\tau≈0.1作为动态缩放因子。此外,这些离群点并不能代表局部立方体的真实特征,为了保证数据质量,在方法和实验中进行了适度的优化。

        对于扩散过程,考虑到均匀噪声可以掩盖重要的结构细节和巨大的计算量,本文引入了一种基于空间位置的非均匀噪声分布策略,通过空间调谐函数c_{t}控制每个体素的噪声权重因子和局部特征依赖的协方差函数E来调节噪声敏感性。

其中,d(i,j,k)表示体素到最近表面或局部立方体边缘的距离。\alpha\lambda值作为距离对噪声水平影响的调节参数。F(x_{t-1})表示由体素x_{t-1}的局部特征计算的方差贡献值,\gamma是由参数\phi调整的权重因子,I是单位矩阵,\beta _{t}是噪声因子。相应地,局部化立方体的扩散过程描述如下:

其中,x_{1:T}表示从时间步1到T的所有数据点的序列,q(x_{t} | x_{t-1})表示在给定的时间步t - 1下局域立方态x_{t}在局域立方态x_{t-1}上的条件概率分布。

       总体流程图。3DGS - HD的整体流程如下:从3DGS重建的模型对象中提取局部立方体,并将其输入到训练好的定制化3D扩散模型中。然后进行一系列的工件剔除操作。存在DSDS损失函数对模型对象进行优化。最后,优化后的模型将继续是可微的瓦片栅格化器,并进行其他操作,以便与我们的真实图像进行比较。该过程既保证了重建物体的高保真度,又完成了伪影剔除工作,从而最大限度地实现了从二维到三维的视图一致性。

3D扩散模型

        对于去噪过程,开发了一个定制的3D U-Net [6]架构。这包含了一种独特的" U型"多分辨率网络架构,使模型能够在每个去噪阶段接收含噪体素立方体及其相关的噪声水平。这使得模型可以进行精确的去噪。在我们的模型中,3D U-Net [6]不仅可以作为噪声预测器,还可以在每次迭代中作为关于局部结构的关键空间数据的管道。它消除了模型中的一些异常值,从而使DDPM [5]框架能够在去噪步骤中更准确地预测每个体素的状态。去噪过程的条件概率分布是高斯的。

其中,方差\sigma ^{2}_{\theta }\left ( x_{t},t \right )是由3D U-Net作为常量产生的,目的是降低预测误差。\overline{\alpha }_{t}=\prod _{s=1}^{t}\alpha _{s}是累积方差保留的乘积,\mu _{\theta }\left ( x_{t},t \right )代表均值。

        随后,使用去噪损失函数L_{denoise}\left ( \theta \right )来减小预测噪声\epsilon _{\theta }\left ( x_{t},t \right )和实际噪声\epsilon _{t }之间的差异。

其中,\widetilde{\mu }_{t}为预测均值,C为与\theta无关的常数项,逐渐恢复出清晰的原始数据。

       随着训练的进行,通过从大量的局部立方体数据中迭代学习的过程,逐渐构建了对有形世界中预期三维特征体的全面理解[11]。这种生成驱动的理解被转化为模型内部的先验知识。

3.  应用3D先验

       在这项研究中,通过使用3DGS [2]实现三维场景重建,重建的模型对象和自适应密度控制机制作为正则化过程的接入点。通过这种方式,本研究中的正则化过程不仅包括每个高斯椭球的位置数据、密度、协方差矩阵和球谐函数,而且还包括自适应密度控制中使用的动态梯度优化参数。提取的重建模型对象的局部立方体尺寸设置为32^{3},同时使用低分辨率网格存储不同位置的高斯椭球的密度权重,从而提高了所应用的三维先验的理解效率。

       首先将低分辨率网格应用于重建的模型对象,目的是提取基于密度权重的非均匀采样的局部立方体。自定义的三维扩散模型在[-1,1]范围内表示自由空间到全空间表示的离散体素数据[9]。将具有生成驱动理解的3D先验应用于局部立方体执行剔除伪影操作,该操作涉及生成精细的局部结构和去除一些异常值。应用了DSDS [4]损失函数:

\sigma _{i}表示高斯椭球的透明度,g_{i}表示在去噪过程中用于噪声预测的定制三维扩散模型的掩膜,w表示用于调节密度分布的超参数。该方法不仅可以利用高斯椭球所包含的信息进行伪影的剔除,还可以与自适应密度控制的克隆或分裂相结合,从而有利于实现最优结果。

4.  完成三维重建

       上述操作是全局一致的[12],不需要额外的损失函数度量剔除工作,否则将增加计算工作量。优化后的重建对象继续执行抛雪球和一个可微的瓦片光栅化器,以便与真实图像进行比较。这保证了去除伪影的最佳质量,并允许合成更高质量的视图,即使在稀疏视图部分也是如此,从而提高了整体重建的保真度。

三、实验

         为了保证实验的精度,我们的场景训练设置为30K次迭代,并配置了与3DGS [2]相同的参数设置,使用了NVIDIA RTX 3060显卡。对图像进行了评估,测试指标为PSNR [13],LPIPS [14]和SSIM [15]。这是对每8张图像进行的。分别在针对复杂场景的Blender [16]数据集和Mip-NeRF 360 [17]数据集上评估模型的综合性能。在细节表现方面,表现更为细微。此外,我们给出了定制的3D扩散模型的一些生成结果。这些结果证明了该模型可以生成逼真的图像,为3D先验的应用提供了坚实的基础。

       该方法的输入与3DGS [2]对齐,并在统一的硬件上运行,实现了从2D到3D视图的重建运行时间的比较。该方法支持在分辨率为1080p,帧率大于30帧/秒的情况下,去除伪影并生成高质量的重建。此外,应用定制的3D扩散模型的3D先验由自适应密度控制模块和3D高斯椭球支持,这不会导致额外的计算成本。为了保证该方法运行时间的准确性,在Blender [16]和Mip - NeRF 360 [17]数据集上进行了全面的比较。该方法的运行时间仅比原始的3DGS [2]多3 ~ 12分钟,运行时间增加的百分比从2.25 %到16.66 %不等。需要说明的是,这里所指的运行时间受到多种因素的影响,包括输入数据集的质量、图像的数量以及输出质量规范等。在进行运行时间对比实验时,我们努力保证实验条件尽可能公平。

1.  在Blender数据集

        这里,我们使用NeRFAcc [18]对NeRF,Instant-NGP [19],Nerfacto [20],以及原生的Mip - NeRF [21]和3DGS [2]进行了定量分析。实验评估的结果表明,本研究中的方法表现出优越的性能,并具有高保真度,如Tab中提供的数据所证明。本研究中的正则化方法是有效的,与3DGS [2]方法相比,在细节上具有更高的精度和保真度。

2.  在Mip-NeRF 360数据集

        Mip-NeRF 360 [17]数据集的评估被证明更具挑战性,因为该数据集包含复杂的场景,这增加了基线模型发生伪影的可能性。相比之下,本研究中定制的3D扩散模型显示了对局部结构的有效理解,有效地抑制了伪影,提高了重建质量。

       两个具有代表性的数据集被用作模型评估的输入。实验结果证明了本研究所采用的正则化方法的有效性。与3DGS [2]方法相比,本研究方法在复杂场景中表现出优越的性能,有效地消除了包括漂浮物在内的大量伪影。与真实图像相比,存在一定的局限性。例如,在稀疏视图中对失真的排斥还不是最优的。这可能与高斯椭球的近似估计和混叠扩展有关,这将是未来工作的重点。我们将继续探索高质量的三维重建,以提高重建的逼真度。

四、结论

        在本研究中,我们提出了一种基于三维扩散模型的场景优化方法(3DGS-HD),该方法在原有的三维通用场景(3DGS)方法上进行了改进。该方法利用定制的三维扩散模型对局部场景进行学习,从而增强其对生成驱动理解任务的鲁棒性,形成3D先验。将3D先验应用于重建物体,以去除不真实的伪影,同时保持视图从2D到3D的一致性。该方法不改变原始三维模型的结构或纹理。在去除不真实的伪影后,该过程继续进行抛雪球等任务,并与GT图像进行比较,直到生成高质量的3D模型[22]。这使得即使在稀疏视图中也能去除伪影,而不需要额外的2D图像输入。实验证明了我们方法的有效性,我们将通过进一步研究其局限性来继续完善。

;