Bootstrap

DimensionX:单图生成任意的3d/4d视图

DimensionX:单图生成任意的3d/4d视图

通俗易懂的来说

在我们的方法中,关键是如何从一张图片生成动态的3D和4D场景。我们使用一个叫做ST-Director的工具,它可以分开处理空间(3D)和时间(4D)两个方面。想象一下,你在拍摄一部电影,S-Director就像是控制相机在场景中移动的导演,而T-Director则是控制场景中物体如何移动的导演。我们首先收集了很多不同的场景数据,然后训练这两个“导演”来学习如何分别处理空间和时间的变化。这样,当我们给他们一张图片时,他们就可以生成一段视频,展示出这个场景在时间变化下的样子,甚至可以让相机在场景中移动,创造出多种视角的效果。这种方法使得我们能够从单一图像中创造出丰富的动态场景,仿佛真的在观看一个活生生的世界。

快速阅读

  1. DimensionX 是香港科技大学、清华大学和生数科技共同推出的框架,可以从单张图片生成高逼真度的 3D 和 4D 场景。
  2. 基于 ST-Director 技术,实现对视频扩散过程中空间和时间因素的解耦和精确控制。
  3. 包含轨迹感知机制和身份保持去噪策略,增强场景的一致性和真实感。

DimensionX 是什么

在这里插入图片描述
在本文中,我们提出了DimensionX,这是一个可以从单一图像生成高度真实的三维(3D)和四维(4D)场景的框架。该方法结合了视频扩散技术,利用空间结构和时间动态的抽象,重建3D和4D表示。尽管现有的视频扩散模型在生成生动视觉效果方面取得了显著成功,但在直接恢复3D和4D场景时面临着空间和时间可控性不足的挑战。为了解决这一问题,我们引入了ST-Director,它通过从不同维度的数据中学习维度感知的低秩适应(LoRA),有效地解耦了视频扩散中的空间和时间因素。通过这种可控的视频扩散方法,我们能够实现对每个维度的精确控制,从而生成高质量的3D和4D场景。

方法

在这里插入图片描述
我们的方法的核心是通过ST-Director来实现可控的视频生成。首先,我们构建了一个维度变化的数据集,以便于在视频扩散过程中解耦空间和时间参数。具体而言,我们利用轨迹规划策略来收集空间变化数据,并使用光流引导来处理时间变化数据。ST-Director由两个部分组成:S-Director和T-Director,分别处理空间和时间的变化。S-Director在空间变化数据上进行训练,生成在时间保持不变的情况下的3D场景视频;而T-Director则在时间变化数据上进行训练,生成在空间位置保持不变的情况下的动态视频。这种设计使得我们能够灵活地控制视频生成过程,分别生成空间和时间变化的帧,甚至将两者结合起来以创建更丰富的4D场景。此外,我们还引入了一种无需训练的维度感知组合方法,以实现对混合维度的控制。

DimensionX 的主要功能

  • 3D 场景生成:从单张图片生成新的视角渲染图,构建 3D 场景。
  • 4D 场景生成:从单张图片生成包含时间和空间变化的动态场景。
  • 视频扩散控制:基于 ST-Director 技术,实现对视频扩散过程中空间和时间因素的解耦和精确控制。
  • 轨迹感知机制:为 3D 生成设计,处理复杂的现实世界场景和相机运动。
  • 身份保持去噪策略:为 4D 生成设计,增强场景的一致性,特别是在动态对象和背景之间

DimensionX 的技术原理

T-Director(空间和时间导演)

  • 维度感知 LoRAs:学习从维度变化数据中得到的低秩适应(LoRAs),实现对视频扩散中空间和时间因素的解耦。
  • S-Director(空间导演):负责生成与空间变化相关的视频帧,控制相机视角和位置。
  • T-Director(时间导演):负责生成与时间变化相关的视频帧,控制场景中对象的动态。
  • 维度感知分解:定义空间和时间等价关系,创建 S-Quotient Space 和 T-Quotient Space,分别捕获视频中的空间轨迹和时间运动轨迹。
  • 无需训练的维度感知组合:基于视频扩散过程中的去噪机制,开发无需训练的方法实现混合维度控制,用在去噪过程的不同阶段切换 S-Director 和 T-Director 生成包含空间和时间变化的视频。
    3D 场景生成
  • 轨迹感知机制:根据不同的相机运动轨迹训练多种 S-Director,覆盖广泛的相机运动模式。
  • 视频插值模型:生成高质量的插值视频,平滑和一致地过渡稀疏视图。
    4D 场景生成
  • 参考视频 latent 共享:基于选择参考帧并共享其 latent 代码增强所有空间变体视频之间的一致性。
  • 外观细化:对每个视点的动态视频进行细化,增强多视图视频之间的稳定性和一致性。

实验在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
我们对DimensionX进行了广泛的实验,以评估其在可控视频生成以及3D和4D场景生成方面的能力。实验包括使用真实和合成数据集进行定量和定性评估。我们与现有的基线方法进行了比较,包括CogVideoX和DreamMachine。结果表明,DimensionX在所有评估指标上均优于基线方法,表现出更高的视觉质量和3D一致性。在单视图和稀疏视图设置下,我们成功重建了高质量的3D场景,并且在4D场景生成中,DimensionX能够从单一图像生成一致的动态视频。通过对不同实验设置的消融研究,我们验证了ST-Director在处理复杂场景时的有效性和可扩展性。

;