RoboHorizon：用于长期机器人操作的 LLM-辅助多视图世界模型

25年1月来自南京大学的论文“RoboHorizon: An LLM-Assisted Multi-View World Model for Long-Horizon Robotic Manipulation”。

由于复杂的表示和策略学习要求，长期机器人操作的有效控制具有挑战性。基于模型的视觉强化学习 (RL) 在解决这些挑战方面表现出巨大潜力，但仍然面临明显的局限性，特别是在处理长期环境中的稀疏奖励和复杂视觉特征时。为了解决这些限制，本文提出用于长期任务的识别-感知-规划-动作 (RSPA) 流程，并进一步引入 RoboHorizon，一种专为长期机器人操作定制的 LLM -辅助多视图世界模型。在 RoboHorizon 中，预训练的 LLM 根据任务语言指令为多阶段子任务生成密集的奖励结构，使机器人能够更好地识别长期任务。然后将关键帧发现集成到多视图掩码自动编码器 (MAE) 架构中，以增强机器人感知关键任务序列的能力，增强其对长期过程的多阶段感知。利用这些密集奖励和多视图表示，可以构建机器人世界模型来高效规划长期任务，使机器人能够通过强化学习算法可靠地行动。在两个代表性基准 RLBench 和 FurnitureBench 上进行的实验表明，RoboHorizon 的表现在 RLBench 的 4 个短期任务上实现 23.35% 的任务成功率提升，在 RLBench 的 6 个长期任务和 FurnitureBench 的 3 个家具组装任务上实现 29.23% 的提升。

如图所示RSPA流程图：

请添加图片描述

用于实际应用的通用机器人机械手，应该能够执行由多个子任务阶段组成的长期任务，例如厨房整理或仓库拣选。例如，厨房整理需要机器人完成诸如分类食物、将食物放入冰箱和清洁台面等任务，而仓库拣选可能涉及识别订单、挑选物品和包装物品。但真的能设计出这样一个全面的机器人系统吗？传统上，长期机器人任务是使用“感知-规划-动作”（SPA）流水线 [Marton，1984；Paul，1981；Murphy，2019] 来解决的，其中包括感知环境、基于动态模型规划任务以及通过低级控制器执行操作。实现该流程的常见方法，是使用视觉和语言编码器提取与任务相关的特征进行表示学习，然后使用基于模型的视觉强化学习 (RL) 训练控制策略 [Dalal，2021；Yamada，2021；Dalal，2024]。尽管上述解决方案在一定程度上有效，但它们在复杂的长期任务中仍面临重大挑战：(1) 语言和视觉编码器难以捕捉长期任务中多阶段子任务的层次结构和依赖关系；(2) 此类任务中的环境反馈通常很稀疏，而 RL 策略严重依赖于合理的奖励结构。前者限制机器人充分理解任务动态和环境背景的能力，而后者进一步阻碍稳定有效的长期操纵策略的发展。

在此提出的关键见解是，在基于模型的视觉强化学习中实现长期任务的稳定执行，依赖于使机器人能够准确理解任务、感知机器人与环境中的目标之间的多阶段交互以及通过结构化奖励系统学习稳定的控制策略。如何让机器人具备这些能力？利用预训练的大语言模型 (LLM) 和多视角摄像机捕捉的视觉演示来赋能机器人，主要是因为：1) LLM 在机器人技术方面取得重大进步，展示了诸如分步规划 [Liang et al., 2023; Zeng et al., 2022; Ahn et al., 2022; Snell et al., 2022]、面向目标（goal）的对话 [Zeng et al., 2022; Ahn et al., 2022； Huang，2022]、子目标（sub-goal） [Huang，2023；Chen，2024a] 和基于语言指令机器人任务的奖励生成 [Chiang，2019；Yu，2023]等。2）从多摄像头视角的观察可以显著增强机器人的视觉操控能力，这种设置在现实世界的应用中越来越普遍。从不同视点捕获的执行轨迹通常具有相似的环境动态和物理结构。先前的研究已经探索使用基于模型的 RL [Seo，2023b] 或模仿学习 (IL) [Goyal，2023；Shridhar，2023；Ke，2024] 从多视图离线数据中学习控制策略。

机器人的长期任务通常通过“感知-规划-动作”（SPA）流程来解决 [Marton，1984；Paul，1981；Murphy，2019]。该流程涉及全面的环境感知、基于环境动态模型的任务规划以及通过低级控制器执行动作。传统方法涵盖一系列技术，从操作规划 [Taylor，1987]、抓握分析 [Miller & Allen，2004] 到任务-运动规划 (TAMP) [Garrett，2021] 和技能-链 [Chen，2024b]。另一方面，最近的方法整合视觉驱动的学习技术 [Mahler，2016；Sundermeyer，2021]。这些算法能够在复杂的高维动作空间中进行长远决策 [Dalal et al., 2024]。然而，它们在处理富含接触的交互时经常面临挑战 [Mason, 2001; Whitney, 2004]，容易因不完善的状态估计而产生级联错误 [Kaelbling & Lozano-Pe ́rez, 2013]，并且需要大量的人工工程 [Garrett et al., 2020]。

基于计算机视觉和机器人学习的最新进展，已经开发出许多方法来利用来自摄像机的多视图数据进行视觉控制 [Akinola，2020；Chen，2021；Hsu，2022；Chen，2023；Shridhar，2023；Seo，2023b]。其中一些方法利用自监督学习来获得视角不变的表示 [Sermanet，2018]，学习 3D 关键点 [Chen，2021；Shridhar，2023；Ke，2024]，或从不同视角进行表示学习 [Seo，2023b] 以解决后续的操作任务。然而，这些方法通常仅限于短期机器人视觉控制任务，缺乏处理长期、多视角机器人视觉表征的能力。

本文提出 RoboHorizon，一个LLM-辅助的多视角世界模型，旨在实现稳定的长期机器人操控。

RoboHorizon 概述如图所示：使用 RLBench 中的长期机器人操作任务“将鞋子从盒子中取出”作为示例，遵循所提出的 RSPA 流程。

请添加图片描述

将长期任务视为部分可观察马尔可夫决策过程 (POMDP) [Sutton，1999]，定义为 (S, A, T , R, p_0, O, p_O, γ)。子任务 ω 是从完整任务的 POMDP 派生出较小的 POMDP (S, A_ω, T, R_ω, p_0^ω)。

在本文例子中，观察空间由所有 RGB 图像组成。奖励函数由大语言模型 (LLM) 生成，任务描述以自然语言提供给智体。还假设该任务有多视图演示数据可用：ζ_n^v = {o_0^v,…,o_n^v}。

LLM-辅助奖励生成——识别

给定一个任务的语言描述，提示 LLM 生成相应的任务规划并编码与任务每个阶段紧密相关的密集奖励。跟随 Yu (2023) ，将语言转化为奖励的过程分解为两个阶段：多阶段任务描述和密集奖励生成。值得注意的是，这里的内部提示和任务设置完全不同。

在第 1 阶段，用预训练的 LLM 作为多阶段规划描述子，它使用预定义的模板将用户输入解释并扩展为所需机器人动作的详细语言描述。为了使多阶段规划描述子能够为长期任务生成连贯的结构，创建一个提示模板来概述当前的机器人任务设置。这利用预训练 LLM 的内部运动规划知识来生成详细的运动描述。在第 2 阶段，部署另一个 LLM 作为密集奖励生成器，将这些运动描述转换为相应的奖励函数。其作为编码任务来处理，利用预训练的 LLM 对编码和代码结构的理解。四种类型的提示，指导密集奖励生成器生成奖励代码：i）基于任务环境界面的任务阶段描述，ii）预期奖励生成器响应的示例，iii）奖励编码器的约束和规则，以及 iv）具体任务描述。（虽然任何预训练的语言模型都可以用于奖励生成，但只有 GPT-4o（OpenAI，2024）能够可靠地为所有任务生成正确的规划和奖励。）

如图所示LLM-辅助奖励生成流程图：

请添加图片描述

关键期多视图表示学习——感知

为了使机器人能够从长期多视图视觉演示中学习多阶段交互表示，提出基于 MV-MAE 架构的关键期多视图掩码自动编码器 (KMV-MAE) [Seo et al., 2023b]。 KMV-MAE 方法使用关键帧发现方法从多视图演示中提取关键期 [James and Davison, 2022]。然后，对这些关键期进行视图掩码训练，并使用视频掩码自动编码器从掩码视点重建缺失像素。遵循先前的工作 [Seo et al., 2023a; Seo et al., 2023b]，屏蔽卷积特征而不是像素块并预测奖励以捕获对长期视觉控制至关重要的细粒度细节。

关键帧发现。KMV-MAE 中的关键帧发现方法遵循先前的研究 [James and Davison, 2022; Goyal et al., 2023; Shridhar et al., 2023; Ke et al., 2024]，根据接近零的关节速度和不变的夹持器状态识别关键帧。如图所示，该方法捕获了从演示 ζ^v 中取出鞋子的任务中每个视点的关键帧 K^v = {k_1^v, k_2^v, …, k_m^v }，其中 k 表示关键帧编号。

请添加图片描述

演示中每个关键帧的对应时间步长为 {t_k_1 , . . . , t_k_m}。然后，每个相邻的关键帧对 k_i^v 和 k_i+1^v 形成一个关键期 h_i = {o_t_k_i^v ,…,o_t_k_I+1^v }。注：每个关键期中的 RGB 观测数量会有所不同，具体取决于演示中相邻关键帧之间的时间步长差异。

视图和管道掩码和重建。为了从多视图长期演示中提取更多交互信息，提出一种视图和管道掩码方法。对于每一帧，随机屏蔽四个视点中三个的所有特征，而剩余视点的 95% 的 patches 被随机掩码。在关键期中，未掩码的视点遵循管道掩码策略 [Tong et al., 2022]。这种方法增强跨视图特征学习，考虑单个视点内的时间相关性，减少信息泄漏，并改进时间特征表示。将视频掩码自动编码 [Feichtenhofer，2022；Tong，2022] 与视图和管道掩码操作相结合。视觉 Transformer (ViT) [Dosovitskiy，2020] 层对所有视点和帧中的未掩码特征序列进行编码。按照 Seo (2023a；2023b) 的做法，将掩码 tokens 与编码特征连接起来，并为每个视点和帧添加可学习的参数，将特征与掩码 tokens 对齐。最后，ViT 层对特征进行解码，将它们投影以重建像素 patches，同时预测奖励以编码与任务相关的信息。这个表示学习过程可以概括为：给定演示视频 ζ_n^v = {o_0^v, . . . , o_n^v}，通过关键帧发现方法提取 m 个关键帧 {k_1^v, k_2^v,…,k_m^v} 后，它们从多个角度变为包含m − 1个关键期的形式：ζ^v = {h_1^v,…,h_m-1^v}_v∈V。给定 LLM-辅助生成的奖励 r = {r_1, …, r_n}，掩码率为 m，KMV-MAE 由以下组件组成：依次为卷积、视图和管道掩码、ViT 编码器和 ViT 解码器

请添加图片描述

最后，训练模型重建关键期像素并预测奖励，即最小化负对数似然以优化模型参数 φ，如下所示：

请添加图片描述

RoboHorizon 世界模型 – 规划

在规划部分，按照先前的工作 [Seo et al., 2023a; Seo et al., 2023b] 构建 RoboHorizon，将其实现为循环状态空间模型 (RSSM) [Hafner et al., 2019] 的变型。该模型使用来自先前关键期多视图表征学习的冻结自动编码器表示作为输入和重建目标。RoboHorizon 包括以下组件：

请添加图片描述

编码器从先前状态 s_t-1、先前动作 a_t-1 和当前自动编码器表示 z_t 中提取状态 s_t。动态模型无需访问 z_t 即可预测 s_t，从而允许前向预测。解码器重建 z_t 以提供模型状态的学习信号，并预测 r_t 以从未来状态计算奖励，而无需解码未来的自动编码器表示。所有模型参数 θ 都通过最小化负变分下限 [Kingma & Welling, 2014] 进行联合优化:

请添加图片描述

其中 β 是尺度超参数。

控制策略学习 – Act

对于动作部分，基于 [Seo et al., 2023a; Seo et al., 2023b] 的方法，并采用 DreamerV2 [Hafner et al., 2021] 中的AC框架。目标是通过 RoboHorizon 世界模型反向传播梯度来训练最大化预测未来值的策略。具体来说，将一个随机 Actor 和一个确定性 Critics 定义为：

请添加图片描述

这里，使用来自等式（2）的随机 actor 和动力学模型，从初始状态 sˆ_0 预测序列 {(sˆ_t, aˆ_t, rˆ_t)}。与以前的工作不同，本文将 H 设置为与长期任务中每个关键期的长度相匹配，每个关键期序列具有不同的持续时间。给定 λ-回报 [Schulman et al., 2015] 定义为：

请添加图片描述

其中 critics 接受回归 λ 回报的训练，而 actor 接受最大化 λ 回报的训练，梯度通过世界模型反向传播。为了使机器人能够更可靠地执行长期任务，引入辅助行为克隆损失，鼓励智体在与环境交互时学习专家操作。为了实现这一点，遵循 [James and Davison, 2022; Seo et al., 2023b] 来获取演示。因此，actor 网络和 critics 网络的目标是：

请添加图片描述

其中辅助行为克隆的目标是

请添加图片描述

因此，利用生成的密集奖励结构，RoboHorizon 中感知、规划和动作过程的训练目标是最小化上述 3 个子目标函数之和。

环境设置。为了进行定量评估，采用演示驱动的 RL 设置来解决 RLBench [James et al., 2020] 和 FurnitureBench [Heo et al., 2023] 中的视觉机器人操作任务。在这两个基准测试中，都依赖于有限的环境交互和专家演示。所有实验仅使用来自每个摄像头的 RGB 观测值，而不包含本体感受状态或深度信息。根据之前的研究 [James and Davison, 2022; Seo et al., 2023b]，用专家演示填充重放缓冲区，RL 智体输出夹持器位置的相对变化。对于所有任务，每个摄像头视图都提供 50 个专家演示。对于 FurnitureBench，用低随机性环境初始化设置。

多视角摄像头设置。采用多视角观察和单视角控制方法 [Seo et al., 2023b]，适用于训练期间有多个摄像头可用、但机器人在部署期间依赖单个摄像头的场景。对于 RLBench 任务，用来自前置、腕部、左和右摄像头的多视角数据来增强机器人对长期任务和环境的感知，同时训练仅依靠前置摄像头输入运行的 RL 智体。对于 FurnitureBench 任务，使用来自前置和腕部摄像头的多视角数据，并使用相同的训练和控制设置。在 RLBench 中对 10 个代表性任务进行实验，其中包括 4 个短期任务（将手机放在底座上、将雨伞从支架上取出、将垃圾放入垃圾桶、堆放葡萄酒）和 6 个长期任务（将鞋子从盒子中取出、将鞋子放入盒子中、清空容器、将书放在书架上、将物品放入抽屉、打开柜子并放置杯子），以及 FurnitureBench 中的 3 个长期家具组装任务（柜子、灯、圆桌），如图所示。在这些任务中，前、左、右摄像头提供机器人工作空间的广阔视图，而腕部摄像头提供了目标物体的特写视图。

请添加图片描述

模拟环境。用 RLBench [James et al., 2020] 和 FurnitureBench [Heo et al., 2023] 模拟器。在 RLBench 环境中，用配备平行夹持器的 7-DoF Franka Panda 机械臂在 4 个短期和 6 个长期视觉操作任务上进行实验。在 FurnitureBench 环境中，用相同的机器人配置在 3 个长期家具组装任务上进行实验。

数据收集。为了实现将强化学习与行为克隆相结合的关键期多视图表示学习和策略学习，首先收集两种类型的模拟任务专家数据。为了在 RLBench 中收集演示数据，将 PyRep [https://github.com/stepjam/PyRep] 中 Franka Panda 机械臂的最大速度提高一倍，这缩短演示的持续时间，同时又不会显着影响演示的质量。对于每个短期任务，用 RLBench 的数据集生成器为每个摄像机视图收集 50 条演示轨迹，对于每个长期任务，为每个摄像机视图收集 100 条演示轨迹。对于 FurnitureBench 任务中的数据收集，利用平台提供的自动化家具组装脚本来自动化数据收集过程。同样，对于每个长期家具组装任务，为每个摄像机视图收集 100 条演示轨迹。

如图所示：4 个短期 RLBench 任务

请添加图片描述

如图所示：6 个长期 RLBench 任务

请添加图片描述

如图所示：3 个长期 FurnitureBench 任务

请添加图片描述

实施。实施建立在官方 MV-MWM [Seo et al., 2023b] 框架上，除非另有说明，否则实施细节保持不变。为了加快训练速度并缓解模拟器速度慢造成的瓶颈，运行 8 个并行模拟器。自动编码器由一个 8 层 ViT 编码器和一个 6 层 ViT 解码器组成，嵌入维度设置为 256。在所有实验中保持一组一致的超参数。

计算硬件。对于所有 RLBench 实验，用单个 NVIDIA GeForce RTX 4090 GPU 和 24GB VRAM，训练 MV-RoboWM 需要 12 小时，训练 MV-MWM 需要 16 小时。