24年4月来自香港科技大学、MIT、UCSD、谷歌、麻省大学和MIT-IBM实验室的论文“RoboDreamer: Learning Compositional World Models for Robot Imagination”。
文本-转-视频模型在机器人决策方面表现出巨大潜力,能够想象未来行动的现实规划以及准确的环境模拟。然而,这类模型的一个主要问题是泛化——模型仅限于合成与训练时见过的语言指令类似视频。这严重限制了决策,寻求一个强大的世界模型来合成从未见过的目标和动作组合规划,解决新环境中从未见过的任务。为了解决这个问题,引入 RoboDreamer,一种通过分解视频生成来学习组合世界模型的创新方法。利用语言的自然组合性将指令解析为一组低级原语,以此为条件设置一组模型来生成视频。解释这种分解如何自然地实现组合泛化,允许新的自然语言指令制定为以前见过的组件组合。进一步展示这种分解如何能够添加额外的多模态目标,能够在给定自然语言指令和目标图像的情况下指定希望生成的视频。该方法可以成功地在 RT-X 中合成未见过目标的视频规划,使机器人在模拟中成功执行,并且大大优于单基线模型的视频生成方法。
文本-转-视频模型(Ho,2022;Singer,2022 年)在 AI 内容生成领域得到了广泛的发展,模型可以根据简短的动作文本描述生成高质量的视频。此类模型最近已应用于机器人技术,在策略、动态模型和规划器开发方面显示出巨大潜力(Du,2023b;Ajay,2023;Yang,2023b)。然而,虽然内容生成中的自然语言命令通常侧重于场景的全局运动,但机器人技术中的自然语言动作围绕着目标之间的精确空间重排列。
诸如“将百事可乐罐移到塑料瓶附近”之类的命令对于现有模型来说仍然具有挑战性。如图所示,现有方法AVDC (Ko, 2023) 生成的视频中,百事可乐罐放在绿色罐附近,无法准确捕捉指定的目标关系。此外,在语言指令与训练期间遇到的指令有偏差的情况下,这些挑战变得更加明显,特别是在数据稀缺且自然语言指令高度偏差的强化学习数据集中。
为了在 RoboDreamer 中将这些多模态规范组合在一起,同样将生成分解为一组以语言组件和其他多模态组件为共同条件的模型(如图所示)。这种方法能够在给定大量指定条件的情况下丰富地指定和生成视频,能够在推理时组合更大的和新的语言和多模态规范,即使在训练时没有这样的配对条件。先前的方法,例如 ControlNet(Zhang,2023)在预训练的文本-到-图像模型上引入一个额外的编码器来应对这一挑战,但这需要在语言和多模态输入之间提供配对数据,并且在推理时仅限于在训练时看到的类似输入组合。
与 AI 内容创建中文本-到-视频模型的许多现有应用不同,在机器人设置中,感兴趣的是在给定详细的自然语言动作指令情况下合成准确的视频规划。为了解决机器人任务,重要的是视频模型能够合成动作,精确地重排列一个目标,并根据附近目标的详细指定关系重排列,包括在训练中未看到的重排列。然而,对于现有的模型来说,推理和正确生成受此类目标空间关系影响的视频,通常具有挑战性,尤其是在未见过的文本描述上。
为了构建能够更准确地合成空间关系的模型,将每个空间关系短语分解为一组组成成分。具体来说,任务的动作通常对应于语言中的动词短语,而目标空间关系对应于动词短语后的介词短语。因此,给定一个文本动作指令 L,将该指令分解为一组动词和命题短语 li,用它们来调节一组扩散模型。
以任务“把水瓶放到底部抽屉里” 为例。从这句话中,我们将动词短语 “放水瓶”解析为任务的动作,将介词短语 “到底部抽屉里”解析为目标空间关系。利用预训练的解析器(Kitaev,2018)和基于规则的方法来解析基于这些特征的语言指令。如图提供了文本解析的示意图。
给定一个自然语言指令 L,该指令被解析为一组语言组件 {li},i=1:N,将文本-到-视频模型生成模型 pθ (τ |L) 制定为每个解析语言子组件 li 上单个生成模型的乘积:
为了训练方程(1)中的概率表达式,可以利用扩散模型和 EBM 之间的紧密联系(Liu, 2022; Du, 2023a),并为每个概率密度 pθ (τ |li) 学习一组得分函数 ε(τ,t|li)。方程(1)中密度乘积的得分对应于得分函数的平均值。
有了这些学习的得分函数,在采样时,可以从新的得分函数组合中进行采样。如下在算法 1 和 2 中说明了方法的整体训练和推理算法。
除了在训练时根据一组语言组件 {li},i=1:N 来调节生成之外,还可以调节一组多模态指令 M 的生成,即 M = {mi},i=1:K。
采用现实世界机器人数据集 RT-1(Brohan,2022)来评估视频生成。该数据集包含各种机器人操作任务,例如从中间抽屉中取出棕色薯片袋。机器人需要检测中间抽屉,拿起一个棕色薯片袋,然后将其放在桌子上。具体来说,用大约 70k 个演示和 500 个不同的任务训练 RoboDreamer。随机选择语言指令作为未见过的测试用例进行评估。
RoboDreamer 的视频扩散模型基于 AVDC (Ko, 2023) 和 Imagen(Ho,2022)构建。在 U-Net 的每个 ResNet 块中使用时空卷积网络以提高效率。在 ResNet 块上引入时间注意层。利用三步级联扩散模型实现超分辨率。使用类似的平铺(tiling)方法来增强时间一致性。由于一个视频中所有帧的背景应该是一致的,因此将输入条件帧连接到所有噪声帧,然后再输入到 U-Net 中。
使用预训练模型来编码多模态指令。用冻结的 T5-XXL 文本编码器(Raffel,2020)来处理自然语言指令,这能够生成上下文嵌入。借用SD的 VQ-VAE(Rombach,2022)中预训练的图像编码器,用于目标图像和目标草图指令。预训练的下采样编码器可以快速提取任务的空间信息并提高效率。所有模态嵌入都将输入到 PerceiverSampler(Jaegle,2021)中,一种对一般输入和输出设计的架构。通过在 ResNet 块中引入交叉注意层,将输出集成到 U-net 中。
在 RL-Bench (James et al., 2020) 上进行评估实验。智体使用多视角摄像头将观察结果捕获为 RGB 图像,并在 RLBench 上控制具有七个自由度 (7 DoF) 的机械臂。该环境的构建是为了模拟现实世界的条件,在观察和行动空间中都具有高维度,这带来了巨大的挑战。有 74 个具有挑战性的基于视觉机器人学习任务,其类别从使用工具的任务、拾取-和-放置任务到长期规划任务不等。遵循以前方法 (Guhur, 2023) 的设置来使用宏步(macro-steps),这将使环境更加专注于机器人规划。只将来自前置摄像头的 RGB 图像视为观察值,这使得 RL-Bench 更具挑战性。为了公平比较,没有添加目标图像作为指令。