目录
一、概述
RGM论文提出一种Carvers的大规模合成汽车数据集,包含超过1000个高精度的3D车辆模型。提出前馈模型,通过图像输入,输出全局照明和重照明3DGS原语融合BRDF参数来表示3D重建物体,实现快速精确3D汽车资产重建。RGM方法生成的高逼真3D汽车资产可以无缝集成到不同照明条件下道路场景中,为工业应用提供实质性的实用价值。
二、相关工作
1、生成模型
基于扩散模型的3D对象生成,结合NeRF和3DGS,使用文本提示生成3D assets,但生成速度慢且训练不稳定,且大规模可塑性汽车资产方面存在局限性。
利用2D扩散模型生成多视图图像,通过引入视角感知来生成具有一致性的多视图RGB图像,但需要额外通过NeRF来重建3D形状和纹理。
利用Transformer的快速前馈3D生成方法,主要集中于重建形状和纹理,但缺少了实际工业的实用性。
该论文考虑一种快速生成3D的pipeline,能够生成高质量3D汽车资产和材质建模。
2、3D高斯溅射
相比于NeRF,3DGS能够利用3D高斯基元表示更高质量的三维场景,渲染速度也更快。
Mip-splatting和SAGS通过采用不同的3D或2D滤波器来解决高斯基元缩放后不一致的问题,2DGS通过压缩高斯基元来增强几何表达能力,3D-HGS将高斯基元分解为半高斯分布,增强了其场景分布。
另外后续也考虑限制高斯基元来实现更为紧凑的场景结构,考虑解决高斯渲染中噪声的问题(模糊Deblur-GS和暗光照下GS in the Dark)。考虑大规模场景建模的Street GS,考虑BRDF建模物理属性的Relightable GS。
3、车辆建模和数据集
以往的真实世界驾驶数据集,如KITTI,Waymo,Nuscenes,虽然提供了全面的传感器数据,但是这些数据集知识专注于目标检测、跟踪、轨迹预测等任务,点云稀疏不足以做车辆重建。
CARLA公司的模拟驾驶数据集,创建了多样化的可控驾驶环境,SRN-Car、Objaverse等创建了3D汽车模型,但都车辆质量较低,不适合下游应用。
MVMC从汽车广告网站收集数据,但是数据过少,质量高但多样性较差。CarStudio提供大量的数据,但是视角单一。3DRealCar数据量多,质量高,但是缺少其他额外的信息,比如法线信息,金属材质等。
三、RGM
1、Carverse数据集
Carverse数据集使用Blender的物理引擎和光线追踪渲染引擎Blender Cycles生成高质量的合成图像,包含多样的材质和全局光照设置。从在线资源中收集了超过1,000个高质量的3D车辆模型和3,000个不同的HDR贴图。数据集包含各种类型的车辆,如轿车、跑车、厢式车和卡车。
首先将3D车辆模型分为训练集和测试集,其中训练集包含1,006个模型,测试集包含50个模型。为了确保数据集的多样性,每个模型在渲染前都进行了随机的Z轴旋转和XY平面翻转。
之后,对训练集中的每个车辆模型,随机赋予不同的纹理和照明条件,进行5次渲染,共得到5,030个样本。对于每个样本,捕获了100个不同相机位置的数据,包括RGB渲染图像、相机位姿信息、法线贴图和材质贴图(如反照率、粗糙度和金属度)。
也对测试集中的50个车辆样本渲染了1个输入图像和30个随机视角的图像,同时还提供了几何网格文件用于评估。
2、重照明GS基元
重照明GS基元(Relightable 3D Gaussian) :由于3DGS表示,现有的前馈生成模型主要关注几何和纹理,而忽视材料属性和照明效果,而为了解决这个问题,建模了一个具有全局照明的三维对象和一组可恢复的3DGS基元。并且每一个高斯基元与一个法线方向和BRDF参数相关。
基于物理渲染方程,计算点x出沿光出射方向的出射辐射亮度(理想情况):
其中为BRDF双向反射分布函数,为表面发现n确定的正半球,为所有可能入射方向,表示与法向量n之间角度。
入射光线由球谐函数表示:
重照明GS几何基元定义:,其中n表示表面点法线,b表示漫反射反射率,r表示材料粗糙度,m表示金属参数。
对于BRDF函数也引入这些参数,定义为:
:表示GS基元在出射方向下的物理颜色(对于出射辐射亮度的近似情况)。
3、RGM
给定单一汽车输入图像,首先通过多视图Wonder3D生成模型生成六个视角的新图像,覆盖前,后,左,右,左前,右前视角。引入相机射线拼接到输入图像中,之后使用非对称U-Net生成3DGS参数,生成物理建模下的渲染,最后引入摄像机位姿来渲染不同光照条件下的2D渲染图像,并生成法线,反射率,材料粗糙度,金属度,光照强度的多视图渲染。