Bootstrap

单个图像自动创建高质量的3D汽车资产--RGM

目录

一、概述

二、相关工作 

1、生成模型

2、3D高斯溅射

3、车辆建模和数据集

三、RGM

1、Carverse数据集

2、重照明GS基元

3、RGM


一、概述

        RGM论文提出一种Carvers的大规模合成汽车数据集,包含超过1000个高精度的3D车辆模型。提出前馈模型,通过图像输入,输出全局照明和重照明3DGS原语融合BRDF参数来表示3D重建物体,实现快速精确3D汽车资产重建。RGM方法生成的高逼真3D汽车资产可以无缝集成到不同照明条件下道路场景中,为工业应用提供实质性的实用价值。

二、相关工作 

1、生成模型

        基于扩散模型的3D对象生成,结合NeRF和3DGS,使用文本提示生成3D assets,但生成速度慢且训练不稳定,且大规模可塑性汽车资产方面存在局限性。

        利用2D扩散模型生成多视图图像,通过引入视角感知来生成具有一致性的多视图RGB图像,但需要额外通过NeRF来重建3D形状和纹理。

        利用Transformer的快速前馈3D生成方法,主要集中于重建形状和纹理,但缺少了实际工业的实用性。

        该论文考虑一种快速生成3D的pipeline,能够生成高质量3D汽车资产和材质建模。

2、3D高斯溅射

        相比于NeRF,3DGS能够利用3D高斯基元表示更高质量的三维场景,渲染速度也更快。

        Mip-splatting和SAGS通过采用不同的3D或2D滤波器来解决高斯基元缩放后不一致的问题,2DGS通过压缩高斯基元来增强几何表达能力,3D-HGS将高斯基元分解为半高斯分布,增强了其场景分布。

        另外后续也考虑限制高斯基元来实现更为紧凑的场景结构,考虑解决高斯渲染中噪声的问题(模糊Deblur-GS和暗光照下GS in the Dark)。考虑大规模场景建模的Street GS,考虑BRDF建模物理属性的Relightable GS。

3、车辆建模和数据集

        以往的真实世界驾驶数据集,如KITTI,Waymo,Nuscenes,虽然提供了全面的传感器数据,但是这些数据集知识专注于目标检测、跟踪、轨迹预测等任务,点云稀疏不足以做车辆重建。

        CARLA公司的模拟驾驶数据集,创建了多样化的可控驾驶环境,SRN-Car、Objaverse等创建了3D汽车模型,但都车辆质量较低,不适合下游应用。

        MVMC从汽车广告网站收集数据,但是数据过少,质量高但多样性较差。CarStudio提供大量的数据,但是视角单一。3DRealCar数据量多,质量高,但是缺少其他额外的信息,比如法线信息,金属材质等。

三、RGM

1、Carverse数据集

        Carverse数据集使用Blender的物理引擎和光线追踪渲染引擎Blender Cycles生成高质量的合成图像,包含多样的材质和全局光照设置。从在线资源中收集了超过1,000个高质量的3D车辆模型和3,000个不同的HDR贴图。数据集包含各种类型的车辆,如轿车、跑车、厢式车和卡车。

        首先将3D车辆模型分为训练集和测试集,其中训练集包含1,006个模型,测试集包含50个模型。为了确保数据集的多样性,每个模型在渲染前都进行了随机的Z轴旋转和XY平面翻转。

        之后,对训练集中的每个车辆模型,随机赋予不同的纹理和照明条件,进行5次渲染,共得到5,030个样本。对于每个样本,捕获了100个不同相机位置的数据,包括RGB渲染图像、相机位姿信息、法线贴图和材质贴图(如反照率、粗糙度和金属度)。

        也对测试集中的50个车辆样本渲染了1个输入图像和30个随机视角的图像,同时还提供了几何网格文件用于评估。

2、重照明GS基元

        重照明GS基元(Relightable 3D Gaussian) :由于3DGS表示,现有的前馈生成模型主要关注几何和纹理,而忽视材料属性和照明效果,而为了解决这个问题,建模了一个具有全局照明的三维对象和一组可恢复的3DGS基元。并且每一个高斯基元与一个法线方向和BRDF参数相关。

        基于物理渲染方程,计算点x出沿光出射方向w_o的出射辐射亮度(理想情况):

                        ​​​​​​​        L_o(x,w_o)=\int _{\Omega +} f_r(x,\omega_i,\omega_o)L_i(x,\omega_i)cos \theta d \omega_i

        其中f_r为BRDF双向反射分布函数,\Omega^+为表面发现n确定的正半球,w_i为所有可能入射方向,\theta表示w_i与法向量n之间角度。

        入射光线L_i(x,\omega_i)由球谐函数表示:L_i(x,\omega_i)=L_i(\omega_i)=L \cdot SH(\omega_i)

        重照明GS几何基元定义:G_i=\left \{ \mu_i,\Sigma_i,c_i,\alpha_i,n_i,b_i,r_i,m_i \right \},其中n表示表面点法线,b表示漫反射反射率,r表示材料粗糙度,m表示金属参数。

        对于BRDF函数也引入这些参数,定义为:f_r(x,\omega_i,\omega_o;n,b,r,m)

        \tilde{c}_i(\omega_o):表示GS基元G_i在出射方向\omega_o下的物理颜色(对于出射辐射亮度L_o(x,\omega_o)近似情况)。

        ​​​​​​​        ​​​​​​​        \tilde{c}_iw_o=\frac{1}{M}\sum_{j=1}^M f_r(\mu_i,\omega_j,\omega_o;n_j,b_i,r_i,m_i)L_i(\omega_j)cos \theta

3、RGM

        给定单一汽车输入图像I,首先通过多视图Wonder3D生成模型生成六个视角的新图像,覆盖前,后,左,右,左前,右前视角。引入相机射线拼接到输入图像中,之后使用非对称U-Net生成3DGS参数,生成物理建模下的渲染,最后引入摄像机位姿来渲染不同光照条件下的2D渲染图像,并生成法线,反射率,材料粗糙度,金属度,光照强度的多视图渲染。

 

参考论文:https://arxiv.org/pdf/2410.08181

        

;