24年6月来自英国UCL的论文“Towards Generalist Robot Learning from Internet Video: A Survey”。
本综述概述在强化学习 (RL) 和机器人技术背景下从视频中学习(LfV) 的方法。专注于能够扩展到大型互联网视频数据集的方法,并在此过程中提取有关世界动态和人类物理行为的基础知识。这种方法对于开发多面手机器人大有裨益。
首先概述与 LfV 机器人设置相关的基本概念。这包括讨论 LfV 方法可以提供的好处(例如,改进现有机器人数据的泛化能力)和对关键 LfV 挑战的评论(例如,视频中缺失的信息和 LfV 分布变化)。综述首先分析可以从大型异构视频数据集中提取知识的视频基础模型技术。接下来,回顾专门利用视频数据进行机器人学习的方法。根据 RL 知识模态 (KM) 从使用视频数据中受益的方式,对相关工作进行分类。还重点介绍缓解 LfV 挑战的技术,包括审查解决视频中缺失动作标签的动作表征。
最后,检查 LfV 数据集和基准,最后讨论 LfV 中的挑战和机遇。可扩展的基础模型方法,可以利用各种互联网视频数据,并面向最有前途的 RL KM 的学习:策略和动态模型。
通才/多面手机器人机器人能够在非结构化的现实环境中执行各种物理任务。这样的机器人非常有用,并且具有广泛的商业应用(例如家用或工厂机器人)。然而,通才机器人的设置带来了一些挑战。首先,通才机器人必须非常有能力。这包括保持从高级(例如推理和规划)到低级(例如灵巧和技能)的能力。其次,要在非结构化环境中运行,通才机器人必须依靠不完善的部分观察(例如视觉和触觉感知)来感知世界。
如何才能获得这样的机器人?经典的机器人技术是不够的,因为它们通常无法处理非结构化和未见过的场景(Krotkov,2018)。相比之下,机器学习 (ML) 技术更有前景 (Peters,2016;Ibarz,2021)。现在,人们普遍认为,机器学习的进步是由数据、算法和计算能力的改进推动的。幸运的是,计算成本一直在下降 (Moore,1998;Mack,2011),而且最近开发出了高效的算法——包括深度学习架构,如 transformers (Vaswani,2017)——其性能随着计算和数据的增加而持续且可预测地提高 (Kaplan,2020)。将这些算法与从互联网上抓取的大量、多样化的数据集相结合,已显著改善了自然语言处理 (OpenAI,2023)、图像生成 (Betker,2023) 以及最近的视频生成 (Brooks,2024)。
有希望的是,这些深度学习方法可以转移到机器人技术上(Brohan,2022;Team,2023)。然而,与其他领域不同,机器人技术缺少一个关键要素:足够大且多样化的数据集。事实上,机器人技术面临着一个“先有鸡还是先有蛋(chicken-and-egg)”的问题。由于机器人的能力有限,无法轻松收集现实世界的机器人数据(部署这些机器人来收集数据可能是无效且危险的)。随后,由于缺乏数据,无法轻松改进机器人。因此,可以说,数据目前是机器人技术进步的关键瓶颈。
如何克服这个数据瓶颈?1)一种可能性是使用人-远程操作来收集真实的机器人数据,但是,这很昂贵,并且在需要技能或灵巧性的任务中可能很困难。2)另一种选择是利用模拟。然而,模拟带来了几个问题,包括不准确的模拟物理和创建适当多样化的模拟环境和任务的困难。3)最后一种选择是,像以前的深度学习成功案例(OpenAI,2023;Betker,2023)一样,利用互联网上已有的大量数据。
鉴于其规模和相关内容,互联网视频数据可以帮助缓解机器人技术中的数据瓶颈问题。具体来说,希望从互联网视频中获得以下好处:(i)提高现有机器人数据的泛化能力,(ii)提高机器人数据分布中的数据效率和性能,并且推测(iii)获得仅从机器人数据中无法提取的涌现能力。事实上,LfV 新兴领域的最新进展令人鼓舞,证明了这些好处的证据。这包括利用大规模视频预测模型作为机器人动力学模型的工作(Yang,2023c;Bruce,2024),或利用机器人数据和互联网视频来训练基础的机器人策略工作(Sohn,2024)。
然而,利用互联网视频面临着许多基本和实际挑战。首先,一般来说,视频是一种具有挑战性的数据模态:它具有高维性、噪声大、随机性强、标记不准确等特点。其次,将视频数据专门用于机器人技术也会带来一系列问题。视频缺乏对机器人技术至关重要的信息,包括动作标签、低层力量和本体感受信息。此外,互联网视频和机器人领域之间可能会出现各种分布变化。鉴于这些挑战,需要明确 LfV 研究的两个关键问题:(i) 如何从互联网视频中提取相关知识?(ii) 如何将从视频中提取的知识应用于机器人技术?
如图所示:绿色框展示 LfV 背后的高层动机。橙色框突出显示 LfV 的潜在优势和 LfV 中的挑战。
如图所示:蓝色框是提出的分类法,可视化从大规模互联网视频中学习流水线中的可能组件。大型互联网视频数据集可用于预训练(视频)基础模型。这些模型可以适应(例如,通过零样本迁移或微调)强化学习 (RL)“知识模态”(Wulfmeier,2023)并用于机器人领域。该图还强调动作表征可用于缓解视频中缺少动作标签的问题。
RL 知识模态 (KM) 是从数据中学习的某种函数,它代表特定类型的 RL 相关知识。
RL KM 可以在源 Markov 决策进程(MDP) 或数据集上进行预训练,随后可以转移到目标 MDP。在 LfV 的情况下,这涉及从视频数据集中学习 KM,并使用机器人数据将其调整到机器人 MDP。这里有几种可能的传输机制。(Wulfmeier 2023) 将其分为两种:直接机制和间接机制。
深度学习的进步一直受到数据集和模型规模扩大的推动(Krizhevsky,2012;He,2016;Radford,2019;Brown,2020)。“基础模型”是在大型多样化数据集上进行预训练的大型模型。以前的 ML 研究会训练特定于任务的模型,但现在通常使用更通用的基础模型(零样本或微调)来解决各种各样的下游任务。这里需要注意的是,除了扩展之外,改进的模型架构(即 transformer 和扩散模型)对于基础模型的进步至关重要。
在具身环境(例如机器人环境)中,研究输出低级动作的“智体”基础模型,分三种不同的方法:(1)互联网预训练的基础模型(例如 VLM)已在带有动作标记的智体数据上进行了微调(Brohan,2023)。(2)序列模型已在互联网数据和带有动作标记的智体数据上进行了联合预训练(Reed,2022;Sohn,2024)。(3)大型模型仅针对带有动作标记的智体数据进行了训练(Brohan,2022;Team,2023)。这里使用的智体数据集,相对于互联网规模的数据而言较小。在相关工作中,LLM被提示充当智体或规划者(Ahn,2022;Yao,2022;Park,2023)。
众所周知,缺乏可用数据,再加上现实世界在线强化学习的不切实际,限制了机器人学习的进展。寻求扩大机器人学习规模的方法如下三类:
1)模拟。人们经常提出使用模拟来解决现实世界强化学习的困难。这在狭窄的环境中取得了令人印象深刻的结果,包括腿部运动(Zhuang,2023)和无人机竞赛(Kaufmann,2023a)。然而,模拟存在许多问题。(1)低级模拟物理的不准确性造成了“模拟-到-现实(Sim-2-Real)”的差距(Zhao,2020),必须克服这一差距。这里的一个常见解决方案是采用域随机化(Tobin,2017)。(2)为通用机器人手动创建适当多样化的模拟环境和任务是一项挑战。最近的研究试图使用程序生成的环境(Deitke,2022)或 LLM 辅助环境设计(Xian,2023;Faldor,2024)来解决这个问题。(3)通常缺乏能够在模拟环境中收集高质量数据的策略。这里的解决方案包括使用人类来收集数据(Mees,2022),或使用可以访问特殊模拟信息的 LLM 作为策略(Ha,2023)。
2)扩展现实世界数据收集。最近的努力一直在寻求收集更大的现实世界机器人数据集。这里的努力涉及使用人类遥控数据收集(Brohan,2022;Khazatsky,2024)和汇集来自不同学术实验室的数据(Padalkar,2023)。其他工作研究自动化数据收集的方法,以提高可扩展性与远程操作 (Bousmalis,2023;Ahn,2024;Yang,2023a)。例如,Ahn (2024) 使用 VLM 和 LLM 来协调一组数据收集机器人。最后,几家商业公司已经证明了适合大规模机器人数据收集的基础设施证据 (Sohn,2024;Jang,2024)。
3)互联网数据。可以通过使用互联网数据来辅助机器人学习。这可以通过使用预训练的基础模型间接完成。图像和视频数据已用于预训练机器人的视觉表示 (Wang,2022;Nair,2022)。基础 VLM 和 LLM 已用于帮助定义机器人学习器的奖励函数(Tam,2022;Du,2023c;Yu,2023b;Klissarov,2023)。LLM 已用作长期任务中的高级规划器(Ahn,2022;Huang,2022)。最后,如上所述,互联网数据已用于帮助训练智体基础模型(Brohan,2023;Sohn,2024)。
Torabi (2019) 回顾从观察数据中进行的模仿学习。然而,这些方法假设可以访问专家演示(因此无法扩展到互联网视频)。最近,Yang (2024) 提倡使用视频(尤其是视频生成方法)作为统一界面,吸收互联网知识并表示各种任务。
最近有一篇综述(Eze & Crick,2024),针对基于视频的机器人操作学习方法。
尽管 LfV 的视频可能来自任何来源,本文主要关注能够利用从互联网收集的大规模视频数据的方法。通常假设这样的互联网数据集主要由人类的视频组成,并且很好地涵盖了人类通常执行的所有物理任务。
“通才机器人”宽泛地定义为,能够在非结构化现实世界环境中执行各种日常物理人类任务的通用机器人。这样的设置是部分可观测 Markov 决策进程(POMDP),其中机器人必须严重依赖视觉观察。假设通才机器人具有与人类相似的具身和 affordance。还假设机器人应该以类似的方式执行与人类通常执行类似的任务。在这些假设下,互联网视频对机器人特别有用:它提供了一个广泛的视频数据集,其中包含与执行相关任务和行为的机器人相似的具身。
这些假设存在一些局限性。首先,对于某些机器人任务,非类人的具身可能更有效。其次,机器人可能需要执行人类通常不执行的特定任务。在这些情况下,互联网视频对于特定实施例和任务的用处较小。尽管如此,它仍然可以提供有关世界和物理行为的一般信息。此外,以能够执行类似人类任务的人形机器人为目标,是通才机器人努力的良好起点。
机器人数据集,其获取成本很高,因此目前特定于任务或相对较窄(Padalkar,2023)。相比之下,互联网上有大量免费提供的多样性视频数据。为了实现获得通才机器人的目标,主张使用能够以可扩展方式利用这些数据的方法。
如图所示在视频学习 (LfV) 设置中的泛化:x 轴表示通才机器人的预期行为范围,y 轴表示数据中包含的信息“级别”。该图表明,与狭窄的机器人数据集相比,互联网数据对所需行为(即 x 轴)的覆盖范围更广,但缺乏对机器人技术至关重要的关键低级信息。尽管缺少这些低级信息,但超越机器人数据进行泛化是 LfV 面临的一项关键挑战。
如图所示LfV 中的关键挑战可视化,包括:视频中缺失的(动作和低级)信息、LfV 分布变化以及视频数据的高维特性。
基础模型是在大型、多样化数据集上训练的大型深度学习模型。它们保留了在广泛的下游环境中有用的一般知识和能力。这在使用大语言模型 (LLM) 的自然语言处理中得到了最显著的证明 (OpenAI,2023;Team,2023)。如图所示LfV 的视频基础模型:顶部绿色框展示不同类别的视频基础模型及其在机器人中的应用,底部蓝色框说明视频基础模型可以为 LfV 做出贡献的两种方法;(左下)预训练的视频基础模型可以微调为机器人基础模型;(右下)视频基础模型技术和数据集可用于训练机器人基础模型。
根据视频基础模型可以提供的三种功能对视频基础模型文献进行分类:(i)视频编码,(ii)视频预测,和(iii)视频到文本生成。在实践中某些模型可能会执行其中的多个功能,例如,任意-到-任意序列模型都可以执行视频预测和视频到文本生成(Liu 2024b)。
一 视频编码器
基础视频编码器可以为下游机器人应用提供丰富而强大的视频表示。LfV 表示迁移方法可以采用视频编码器并将其微调为 RL KM(例如,微调为策略)。其他方法使用冻结的预训练视频表示,帮助定义机器人奖励函数(Fan,2022;Sontakke,2023;Nair,2022)。
对有前途的学习目标和技术进行分类和详细说明,这些目标和技术可用于从互联网规模的视频数据中训练基础视频编码器。主要关注基于视频的架构,这些架构学习以端到端的方式联合表示视频中的时空信息(Arnab,2021;Yu,2023b;Zhao,2024)。与依赖(但最终受制于)手工设置的归纳偏差来处理视频的模型(Simonyan & Zisserman,2014;Girdhar,2017)相比,基于视频的方法更有前景:当适当扩展到互联网视频数据时,如下这些方法可以学习更丰富、更具信息量的视频表征
1)视频-语言目标。文本注释对于学习视频的语义表示很有用。有几个利用文本注释的学习目标:(i)视频-文本对比损失(Xu et al., 2021),(ii)视频-文本匹配(Li et al., 2023),(iii)掩蔽语言建模(Li et al., 2023),以及(iv)视频-到-文本损失(Papalampidi et al., 2023)。视频-文本对比 NCE 损失非常流行(Xu et al., 2021; Zhao et al., 2024; Papalampidi et al., 2023; Li et al., 2023; Wang et al., 2023b)。Wang et al. (2023b) 在训练早期阶段随机掩码输入视频来加速对比训练。Papalampidi et al. (2023)使用学习规划,在对比训练的过程中从较短的视频过渡到较长的视频。注意,采样负样本的策略和小批量对于对比方法至关重要。Zhao(2024)在不同数据集的小批量之间交替,Xu(2021)使用检索增强采样来选择小批量,而 Bagad(2023)人为地创建负样本以改进时间表示。在其他地方,其他视频文本损失通常与 NCE 损失结合使用。Li(2023)结合视频文本对比、视频文本匹配和掩蔽语言建模目标。Yan(2022)、Papalampidi(2023)将视频-到-文本目标和视频-文本的对比目标结合起来。
2)掩码自动编码(MAE)。视频 MAE 涉及对掩码视频进行编码和重建,重建损失作为学习目标(Tong,2022;Wang,2023c;Girdhar,2022)。Tong(2022 年)在token空间中对视频和掩码进行token化,并做出了两个重要的设计决策:(i)由于视频中的时间冗余,采用了极高的掩码率(90-95%);(ii)一个管(tube)掩码方案(沿时间维度延伸掩码)缓解了与运动最小区域易于重建相关的问题。Wang(2023c)还在解码器中执行掩码,以进一步提高计算效率。Li(2023 年)执行语义掩码,其中图像的语义相关部分(由图像语言模型确定)优先进行掩码。相关方法使用掩码蒸馏方案(Wang,2022),或矢量量化自动编码(Yu,2023)。
3)VQ自动编码。VQ-AE(van den Oord,2017)使用码本将视频编码为 AE 瓶颈中的离散表示。重建目标可以是像素错误损失(即 VQ-VAE),也可以是对抗性损失(即 VQ-GAN)。在决定编码器-解码器架构时,必须就如何融合视频中的时空信息做出关键决定。一个简单的选择是使用 2D VQ-AE(Seo,2022b)单独编码每个帧。然而,这可能会忽略沿时间维度融合信息的重要性。为了更自然地融合视频中的时空信息,人们探索 3D 卷积(Yan,2021;Yu,2022),以及各种时空注意方案(Arnab,2021;Bertasius,2021)。Yu (2023b) 使用时间因果 3D 卷积(补充无查找的量化)来改进 Yu (2022)。Villegas (2022) 使用 C-ViViT(ViVit 架构的因果变体)编码器-解码器,在空间和时间上压缩视频,同时保持时间上的自回归。Bruce(2024)通过使用 ST-Transformer (Xu et al., 2020) 编码器-解码器来提高计算效率。这些 VQ-AE 模型可以构建为视频token化器,并且通常用于为视频预测模型提供压缩的潜空间 (Yan et al., 2021)。
4)蒸馏损失。许多研究探索了学生-教师蒸馏损失的使用(Wang,2022;Zhao,2024;Li,2023)。Wang(2022)预训练单独的图像和视频教师(分别提供改进的引导空间和时间特征),并训练学生重建每个教师的特征。Zhao(2024)从初始视频-文本对比学习阶段冻结视频编码器,并在第二个 MAE 阶段使用它来提供蒸馏损失。Li(2023)使用冻结的图像语言模型在整个训练过程中提供蒸馏损失,从而改进语义特征的学习。
5)联合嵌入预测架构(JEPA)。JEPA 方法- 根据另一个输入 X(例如原始视频)的表示,预测输入 Y(例如视频的掩码版本)的表示,最近已应用于视频(Bardes,2023)。与像素重建方法相比,JEPA 方法可以更好地缓解与视频高维性和视频噪声相关的问题。
上述不同目标可以结合起来,相互补充。例如,捕捉语义特征(但标签噪声较大)的视频文本目标可以与更好地捕捉低级特征(并且不需要语言标签)的掩码建模目标相结合(Li et al., 2023; Zhao et al., 2024)。这通常在多阶段训练框架中完成(Zhao et al., 2024)。还采用了其他多阶段流程,包括:在对高质量数据进行微调之前,对各种低质量数据进行预训练(Wang et al., 2023c),或从较短的视频开始,然后再转到较长的视频(Liu et al., 2024b)。
最后,基于视频的技术通常从图像数据自举,图像数据可以更自由地获得,并且通常带有改进的语言注释(Schuhmann et al., 2022)。这里的一些技术包括:在训练期间联合使用图像数据和视频数据(Papalampidi,2023);使用预训练的图像模型来提供蒸馏损失(Li,2023;Wang,2022);或将预训练的图像模型调整为视频模型(Yan,2022;Yang,2023)。
二 视频预测器
通过对互联网视频进行训练,此类模型可以学习有关世界动态和人类行为的信息。因此,它们可以通过多种方式用于下游机器人应用:
1 动力学:视频预测模型可以改编为机器人动力学模型,用作规划器(Du,2023b)或模拟器(Yang,2023c)。
2 策略:视频预测目标隐式地允许模型学习视频数据集中行为的分布(Escontrela,2023)。因此,视频预测模型可以通过生成“观察即行动”来充当策略:即机器人应执行未来行为的视频(Du,2023a)。
3 表示:由于它们所代表的相关信息,视频预测器可用于 LfV 表示迁移方法。
4 奖励:最后,可以定义一个奖励信号,鼓励机器人匹配视频预测器所期望的行为 (Escontrela et al., 2023)。
最有前途的最新技术包括:扩散、自回归Transformer和掩码Transformer。主要关注的是可以执行下一帧视频预测 p(st+1|st−k:t) 的模型。然而,同样相关的是可以更普遍地执行某种形式条件视频生成 p(τ|c)(其中 τ 是视频剪辑片段,c 是一些条件信息)的模型 (Yang et al., 2024)。
三 视频-转-文本模型
一个功能强大的视频-转-文本模型可以执行视频问答或视频摘要等操作。此类模型有许多商业应用,很可能在不久的将来看到越来越多功能强大的模型。一个功能强大的视频-转-文本基础模型可能在以下几个方面对机器人技术有价值:
1 高质量表示:一个功能强大的视频-转-文本模型将具有强大、高质量的视频表示。与纯视频模型相比,它可能会改进高级语义表示。与图像-转-文本模型相比,它将具有改进的时间动态表示。机器人技术可以通过表示迁移(Brohan,2023)或通过将机器人数据直接添加到模型的预训练语料库中(Reed,2022)从此类模型中引导。
2 落地的推理和规划:LLM 已被证明可用作机器人技术的规划模块(Ahn,2022),但它们缺乏物理世界的基础,这是限制因素。相比之下,视频-转-文本模型可以通过信息丰富的视频感知环境,从而实现改进的闭环推理和规划。
3 注释机器人数据:高质量的语言注释可以在许多 ML 领域提供有价值的条件信息(Betker,2023;Brooks,2024)。机器人技术也不例外(Team,2023)。功能强大的视频-转-文本模型可以作为机器人数据集的有用语言注释器(Blank,2024)。
4 奖励:功能足够强大的视频-转-文本模型可以为机器人学习器提供奖励或价值估计。例如,这可以通过视觉问答框架(Du,2023c)或通过 RL-from-AI-feedback 框架(Klissarov,2023)来实现。
以下是一些视频-转-文本的方法和模型:
预训练模型的零样本组合。由于训练单一视频-转-文本模型的困难,以前的工作已经明确地分解了问题,将子任务分配给冻结的预训练模型。这些预训练模型通常通过语言进行交流。Chen(2023b)使用图像语言模型来回答有关单个视频帧的问题,并使用 LLM 来合成这些信息以生成视频的全局摘要。Shang(2024)使用更复杂的方案进行视频问答。Zeng(2022)使用了更广泛的预训练模型,包括音频-语言模型和目标检测器。Li(2022)通过闭环迭代共识优化过程,组合预训练模型来解决多模态问题,包括视频-转-文本任务。虽然这些组合方法可能有效,但它们的模块化结构和缺乏端到端视频训练,意味着可能缺乏丰富、细致入微的视频表示和理解。
通过适配器和微调利用预训练的 LLM。Alayrac (2022)、Li (2022) 介绍了微调预训练 LLM 以根据图像输入进行额外调节的方案。开源 LLM (Touvron,2023) 的最新改进,已将这些方法扩展到视频领域。在这里,方法通常涉及以下步骤:(i) 获得预训练的 LLM 和(通常是预训练的)视频编码器;(ii) 定义一个适配器模块将信息从视频编码器输出引导到 LLM;最后 (iii) 在视频文本数据上微调组合模型。
原生多模态模型。前面讨论的方法涉及组合和微调最初不用于视频-转-文本目的的预训练模型。(松散地)更原生多模态的端到端训练流水线。Liu(2024b)、Team(2023)、Jin(2023)都通过下一个token预测来训练多模态任意-到-任意(或任意-到-文本)自回归Transformer。这需要使用特定于模态的编码器和解码器。请注意,在实践中,这些方法可能仍会使用预训练的 LLM 初始化其模型(Jin et al., 2023),或对纯文本数据执行初始阶段的训练(Liu et al., 2024b)。
LfV 在机器人应用存在挑战。存在两类技术,每类技术都解决了一个关键挑战:(1) 替代动作表征来缓解视频数据中缺失的动作标签。(2) 使用某些表征明确解决 LfV 分布偏移问题。这些技术在各种 LfV 方法中反复出现,并用作一个更大 LfV 流水线的单个组件。
一 动作表征
机器人数据的转换元组通常采用 (st, at, rt, st+1) 的形式。利用这种带有动作标签的数据,可以训练需要动作信息的 RL 知识模态 (KM)。例如,可以使用机器人数据上的行为克隆来获得动作生成策略 π(at|st)。但是,视频数据转换元组缺少动作标签:以 (st, st+1) 的形式。因此,视频数据不能简单地用于训练知识模态,即策略、动作-价值函数或动态模型。
如图所示从视频中恢复动作表征,克服LfV中丢失动作-标签问题:(a)无动作视频可以用替代动作表示 aˆ 进行标记。这些标记数据可用于训练替代动作 RL 知识模态(例如,策略、价值函数或动态模型);(b)可以从视频数据中学习或获取的动作表征类别。
动作表征的类别如下:
1 单步潜动作
考虑学习的动作表示,其中 aˆt(即潜动作)仅包含有关从 st 到 st+1 的动作信息。学习这种潜表示的方法通常采用一个下一状态预测的目标 p(st+1 |aˆt, st),这样 aˆt 对于前向动力学模型 (FDM) 的预测具有参考价值 (Edwards et al., 2018; Rybkin et al., 2018; Schmidt & Jiang, 2023; Bruce et al., 2024)。
Edwards (2018) 引入潜动作策略 πalt (aˆt | st ),但他们的方法只能学习离散的潜动作空间,并且容易受到模式崩溃的影响 (Struckmeier & Kyrki, 2022; Schmidt & Jiang, 2023)。学习连续潜动作空间的方法(Rybkin,2018;Schmeckpeper,2019;Chang,2022;Schmidt & Jiang,2023;Bruce,2024)通常按如下方式工作:(1)潜在逆动力学模型 (IDM) 对过去帧进行编码以推断 aˆt。(2)然后将 aˆt 连同过去帧一起传递给 FDM p(st+1 |aˆt, {st−k, . . . , st }),后者预测 st+1。(3)此设置通过 FDM 预测误差进行端到端训练。此外,通常采用某种形式的正则化来防止 IDM 将整个观测 st+1 复制到潜动作中(即,最小化潜动作中信息)。Rybkin (2018) 将潜动作正则化为高斯先验并强制可组合性(composability)损失,而 Schmidt & Jiang (2023)、Bruce (2024) 使用矢量量化颈。Rybkin (2018)、Schmidt & Jiang (2023) 展示了他们的正则化技术,改善潜动作的解偶问题,从而提高下游性能。
这些方法有一些潜在局限性。首先,学习的潜动作空间联合建模由智体和外部环境引起的视觉变化:通常,只想表示由于单个智体采取的动作而导致的变化。其次,这些方法在视觉层面上对环境转换进行建模,因此它们可能会忽略与机器人动作(例如力量)相关的非视觉低级信息。需要对从现实互联网视频中学习单步潜动作空间进行更多的研究。
2 多步潜动作
学习的动作表示 aˆ,包含有关在视频的多个时间步骤中采取的动作信息(即从 st 到 st+k)。在这里,任何表示视频片段的方法都可以适用,包括视频表示方法(尽管有些比其他方法具有更合适的属性)。使用变分自编码将视频表示为潜规划,已经在带动作标记的演示中得到了广泛的探索(Lynch,2020;Cui,2022;Roste-Beas,2022),但在无动作视频中则较少讨论。Wang(2023a)通过自动编码从无动作视频中学习潜规划表示,但使用 3D 人手轨迹作为解码器目标(而不是原始视频)。LfV 文献中已经探讨了其他几种方法。从带语言字幕的视频中,人们使用视频语言对比损失 (Fan,2022;Lifshitz,2023;Sontakke,2023) 学习视频轨迹的表示。Chane-Sane (2023)、Chen (2021) 通过执行有监督对比学习并使用剪辑片段级动作标签来获得视频剪辑片段的有用表示。Xu (2023) 使用自监督学习聚类框架学习视频剪辑的表示。在Tomar (2023)、Pertsch (2022)、Cai (2023) 中介绍了学习多步潜动作的更多方法。
3 观测-即-动作
一种简单的方法是使用未来的观测(即视频中的未来图像帧)作为动作表示:未来的观测(或其编码)提供有关视频中下一步将采取什么动作的信息。这样做的好处是,这个 Aˆ 可以直接从原始视频中获得;不需要额外的标签或学习步骤。正如描述的,观测即动作,可以在不同的时间范围内实施。
4 语言即动作
自然语言可以用作灵活的高级动作空间(例如,aˆ =“拿起立方体”)(Belkhale,2024;Shi,2024),并允许与其他语言模型交互(Du,2023b)。一些视频数据集,附带语言动作注释(Grauman,2021)。否则,可以进一步处理一般注释(例如,使用 LLM)将其转换为更合适的“类似动作”形式(Mu,2023)。如果视频没有附带语言描述,可以使用手动或自动字幕方法来获得合适的注释。这里的一个缺点是,语言很粗略,语言描述可能会忽略重要的低层动作信息。
5 视觉运动信息
其他研究使用视频中的视觉运动信息来定义 Aˆ。Wen (2023) 通过用 2D 点轨迹标记视频数据来实现这一点:使用现成的点跟踪器 (Karaev,2023) 在整个视频中对目标上的随机点进行采样和跟踪。Yuan (2024) 采用了类似的方法,但使用 3D 点轨迹。3D 注释是从 3D 注释数据集中获得的,深度估计 (Bhat,2023) 技术也可以使用。此外,Ko (2023) 使用现成的模型 (Xu,2022) 来预测两幅图像之间的光流,从而给出两帧之间的像素级密集对应图。在相关方法中,Nasiriany (2024) 通过图像的视觉箭头表示动作。最后,Wang (2024) 使用 3D 注释数据集来表示 3D 注释。最后,Wang(2023b)使用运动恢复结构(Schonberger & Frahm,2016)来恢复动作信息,Yuan(2021)使用以目标为中心表征的运动,而 Yang(2023c)可选地使用相机帧运动/角度信息作为视频预测器的条件信息。
6 人-具身信息
现成的人手检测模型 (Rong et al., 2020; Shan et al., 2020) 可以从视频中提取手势或affordance,这些手势或affordance可以作为替代的动作表示 (Bharadhwaj et al., 2023; Bahl et al., 2023; Shaw et al., 2022; Qin et al., 2022, 2021)。例如,aˆ 可以定义为在时间 t + 1 时应达到的姿势。Bharadhwaj et al. (2023) 除了使用人体姿势外,还使用目标掩码来定义 Aˆ。也可以使用动物具身信息 (Peng et al., 2020)。
7 逆动力学模型( IDM )伪-运动标签
虽然从技术上讲,这些方法并不是替代动作表示,但它们在带有动作标记的机器人数据上训练了一个逆动力学模型 p−1(at|st, st+1),并使用它来为无动作视频数据提供伪动作标签 (Baker,2022;Torabi,2018a;Schmeckpeper,2020)。然而,这些简单的方法不太可能扩展到不同的互联网视频,因为它们需要:(i) 视频数据和机器人域之间的最小域迁移,例如,Baker (2022) 假设相同的实施例,或 (ii) 一种明确的机制来处理域迁移,这种机制可能无法很好地扩展到不同的互联网视频 (Schmeckpeper,2020;Kim,2023)。
二 LfV的域迁移
互联网视频和目标机器人域之间的分布变化对 LfV 方法构成了挑战。例如,一个常见的变化是人类和机器人之间的具身差异。这种分布变化可能会阻碍将知识从视频数据迁移到机器人的能力。
有三种策略可能有助于克服这些分布变化问题:
- 扩展到大型、多样化的数据集:预训练视频数据集的更高覆盖率,将最大限度地减少下游机器人领域中遇到的未见过的变化。此外,预训练规模的增加可能会提高模型的整体泛化能力。
- 利用域内机器人数据:域内机器人数据可以合并到视频训练数据中,或者可以根据机器人数据对视频模型进行微调。
- 使用明确解决分布偏移的表示:这涉及明确学习/定义更易于转移到机器人领域的(人类)视频表示。例如,可以学习实施具身不变表示(Schmeckpeper,2020)。一旦获得可迁移的表示,人们最常将其用于:(i)定义一个奖励函数,鼓励机器人匹配视频中的行为(Zakka,2021),或者,如果表示包含动作信息,(ii)通过对所表示视频的行为克隆来帮助训练策略(Bharadhwaj,2023)。
方法 1:(人类)具身感知方法
在 LfV 中,最感兴趣的往往是从人类行为中学习:希望机器人能够复制这种行为。特别是,经常对复制人类手的行为和效果感兴趣。有一系列 LfV 研究明确地检测视频中的人类具身信息,然后将这些信息传输给机器人。注意,也可以使用动物具身信息(Peng,2020)。
方法 2:学习不变表示
这里指的是学习表示的方法,该表示对于视频数据集和机器人域之间的特定分布偏移不变。各种研究如下:
(1)域混淆技术可以学习跨视点(Stadie,2017)和具身(Schmeckpeper,2020)不变的表示。
(2)对比学习技术可以鼓励跨特定轴的不变性;Sermanet(2018)根据不同视点的时间对齐视频学习视点不变表示。在相关工作中,Aytar(2018)使用时域距离分类,学习跨视觉变化泛化的表示。
(3)时域周期一致性目标可以学习具身不变表示;Zakka(2021)使用执行相同任务不同具身的视频来做到这一点。
(4)还提出分解表示。Schmeckpeper(2019)、Shang & Ryoo(2021)将学习的表示分解为两个部分:一个是跨分布的共同部分,另一个是每个分布所特有的部分。Chang(2023)使用体现分割和修复(inpainting)去除来获得智体和环境的显式分解表示。
(5)图像转换方法可以将图像从源分布(例如,人类具身)转换为目标(例如,机器人具身)分布。例如,可以使用 Cycle-GAN(Smith,2019)或扩散修复(Bahl,2022;Bharadhwaj,2023;Li,2024)来完成此操作。
方法 3: 可迁移的摘要
一些方法利用了可以自然地从人类迁移到机器人的抽象概念。Sieb(2020)、Kumar(2022)使用以目标为中心的图表示来模仿人类视频。Nagarajan & Grauman(2021)从人类视频中学习以目标为中心的行动-上下文先验。Karnan(2021)、Xiong(2021)检测关键点来比较人类和机器人视频。如上所述,Bahl(2023)、Mendonca(2023)利用与具身无关的affordance。这些方法分别受益于使用现成的目标、关键点和人手检测器。同时,语言也被用作可迁移的抽象概念(Chen,2021;Mu,2023;Pertsch,2022)。
其他方法:
Kim (2023) 使用手-眼演示来收集视频数据,绕过具身差异。Young (2020) 让人类使用类似于机器人的操纵器来收集视频演示。这些方法有助于绕过 LfV 分布偏移,但并未提出可以扩展到互联网视频数据的方法。
三 RL 知识模态(KM)
如图所示:LfV 应用于 RL 知识模态。根据强化学习 (RL) 知识模态 (KM) 从视频数据的使用中受益的情况对 LfV 机器人的工作进行分类,从而得出一个分类,即策略、动力学模型、奖励函数和价值函数。
1 策略
最终,LfV 的目标是使用视频数据来帮助获得策略 π(at | st)。如图所示:(a) 表征迁移,表示在视频数据上进行预训练,并在下游使用,同时在机器人数据上训练策略; (b) 多模态模型,模型在视频和机器人数据上联合训练,可以预测机器人的动作; © 替代-动作策略和解码器,πalt 在视频数据上进行训练以输出动作表示,这会对在机器人数据上训练的动作解码 π 进行调节; (d) 策略即视频,是这种分层设置的特定实例,其中动作表示是一个视频,解码器(通常)是一个逆动力学模型 (IDM)。
2 动力学模型
视频预测模型 p(st+1 | st) 捕获时间动态信息 - 有关世界动态和物理的信息。此信息及其功能与机器人动态模型 p(st+1 | st, at) 高度相关。LfV 的一系列研究,试图在视频数据集 Dvideo 上使用视频预测目标来帮助学习机器人动态模型。这可能涉及在视频数据集 Dvideo 上预训练 p(st+1 | st) 并使用机器人数据集 Drobot 将其调优为 p(st+1|st, at)。或者,它可能涉及在 Dvideo 和 Drobot 上进行联合预训练。
值得注意的是,标准视频预测模型在用作动态模型时可能存在一些缺陷。这些涉及:
- 动作调节:标准动态模型 p(st+1|st, at) 应以低层机器人动作为条件。
- 缺少低层信息:机器人动力学模型可能需要考虑视频中不包含的低层信息(例如本体感受力量和触觉信息)才能做出准确预测。
- 分布偏移:由于分布偏移,预训练的视频预测器可能无法很好地将零样本从其视频数据集迁移到机器人域。
在预训练中,上述动作-条件问题可以通过以下方式缓解:(1)对视频和机器人数据进行联合预训练(Yang et al., 2023c; Sohn et al., 2024),或(2)预训练替代-动作-条件视频预测器 palt (st+1 |st, aˆt)(Yang et al., 2023c; Bruce et al., 2024):对 Aˆ 进行条件化可以更好地控制视频生成,并且通常可以从 Aˆ 获得到机器人动作空间的一个映射(Rybkin et al., 2018; Schmidt & Jiang, 2023)。
语言即动作。一种流行的选择是训练文本条件视频预测器(Yang et al., 2023c; Du et al., 2023b)。请注意,语言动作通常是时间扩展的——即,单一语言“动作”可能会导致生成多个时间步长的视频。
单步潜动作。视频预测器已经过训练,以学习的单步潜动作为条件(Rybkin,2018;Bruce,2024),允许在每个时间步长上对预测进行条件化。
观测即行动。视频预测器可以以目标图像为条件,鼓励生成将当前观测与目标图像联系起来的视频(Du,2023a)。
以多种动作类型为条件。UniSim(Yang,2023c)在视频和机器人数据上训练大规模视频扩散模型,在几个不同的动作空间上进行条件化。该模型以机器人动作(从机器人数据中获得)、语言动作(从带语言标签的视频和图像中获得)和相机运动的动作为条件。注:机器人动作调节仅应用于机器人视频时才有意义。
其他。Mendonca (2023) 预训练视频预测器,根据未来的抓取位置和抓取后航路点 affordance 信息进行调节。Yuan (2021)、Wang (2023b) 使用运动信息进行调节。如上所述,Yang (2023c) 可以根据相机运动和相机姿势信息调节生成。
预训练的视频预测器可能需要进行适应性调整才能用作动力学模型。一种显而易见的方法是在机器人数据上对其进行微调(Du,2023a;Ajay,2023),尽管目前很少有研究将无动作视频预测器 p(st+1|st) 微调为动作为条件的动力学模型 p(st+1|st,at)。Mendonca (2023) 使用基于affordance的条件对视频进行预训练,并在微调过程中添加可选的机器人动作条件,创建混合动作空间。Seo (2022a) 发现,机器人数据的简单微调会导致预训练知识被抹去,而应该在预训练模型之上“堆叠”一个新的动作条件模型。在相关工作中,Yang(2023b)证明一个大型预训练视频传播模型的得分函数可以指导较小的特定任务视频模型的生成。
一旦借助视频数据获得动态模型,会在 LfV 中以各种方式使用。
作为模拟器:p(st+1|st,at) 可用于生成合成数据。UniSim (Yang,2023c) 这样做是为了使用合成 rollout 训练 RL 策略,并通过事后重标记合成轨迹来克隆行为。Genie (Bruce,2024) 展示他们的动态模型,该模型可以为开放式学习生成无限的模拟数据。
作为可微分模拟器:Seo (2022a)、Wu (2023b) 通过模型生成的 rollout 进行反向传播,作为 Dreamer (Hafner,2023) 基于模型 RL 算法的一部分。
用于规划:一些 LfV 工作使用标准 MPC 的动力学模型(Rybkin,2018;Mendonca,2023)。Du(2023b)使用语言动作来调节视频生成,并执行树搜索选择合适的基于视频规划。
视频数据可以提高基于模型 RL 方法的性能。Seo (2022a) 展示改进的机器人数据效率,但使用的是玩具视频数据集。 (Bruce,2024) 展示他们的视频游戏基础模型,表现出泛化的初步迹象。在使用大型人类视频数据集进行预训练时,几项研究已显示出适度的性能提升 (Mendonca,2023;Wu,2023b)。Yang (2023c)、Du (2023b) 证明大规模预训练视频扩散模型在长期任务中特别有用。
3 奖励函数
奖励函数是 RL 算法的重要组成部分。然而,由于多种原因,手动奖励设计很难扩展到现实世界的通才机器人设置。首先,在现实世界中,可能需要复杂的传感系统来跟踪与奖励相关的信息。其次,即使对于看似简单的行为,奖励构建也可能很棘手(Popov,2017;OpenAI,2020)。LfV 研究试图通过从视频数据中提取视觉奖励函数来解决这个问题。
用视频数据将过渡元组 (st, at, st+1) 重标记为 (st, at, rt, st+1) ,这样允许将元组用于在线或离线 RL。
从视频中提取奖励函数的方法包括:
视频-语言模型奖励
视频预测器作为奖励
表征对一个参考的相似度
基于潜能的价值函数定形
生成式对抗仿真
其他方法
使用 LfV 获得的奖励函数的一种简单方法,是将零样本作为任务奖励(Escontrela,2023)。一些工作进一步微调域内机器人数据的奖励函数以提高其准确性(Sontakke,2023)。除了稀疏任务奖励之外,其他工作还使用 LfV 奖励作为探索或塑造奖励(Ye,2023;Chang,2022)。Adeniji(2023)使用 LfV 奖励对策略进行预训练,然后在手动定义的任务奖励上对策略进行微调。虽然主要探讨将 LfV 奖励用于在线 RL,但值得注意的是,这些方法也可以为离线 RL 数据集提供奖励标签。
4 价值函数
价值函数是大多数深度 RL 算法(Schulman,2017;Haarnoja,2018)的重要组成部分。LfV 研究的一小部分但很独特,其预训练与视频数据中的价值函数非常相似的模型。这些预训练模型通常不用作下游的价值函数,而是被用来提供表示或奖励等。因此,许多这些方法在前面的部分中已经提到过。
时间差分 (TD) 学习目标通常用于学习强化学习中的价值函数 (Sutton & Barto, 2018)。与机器人数据的 TD 学习相比,视频数据由于缺少标签而带来了额外的挑战。也就是说,视频缺少重要的动作、奖励和目标标签。
时间对比学习的目标可用于从视频中学习隐价值函数(Ma,2022)。重要的是,这些目标不需要视频预训练的动作标签。该目标会引发时域平滑的表示,并且可以通过测量表示空间中当前观测和目标图像之间的距离来定义价值函数。准度量函数(Wang,2023)和时域周期一致性目标(Zakka,2021)已用于学习类似的表示。注:对目标图像的要求,恰恰是这些方法的限制。
Edwards & Isbell (2019) 使用视频中剩余的时间步数作为启发式价值标签,并将价值函数回归到这些标签。然而,这种方法假设视频中的专家行为。Du (2023b) 采取了类似的方法,微调 VLM 提供启发式价值估计。Liu (2023b) 使用关键状态识别来帮助价值预测,但这假设可以访问视频数据中的奖励标签。
视频预训练的价值函数在下游机器人领域中使用如下几种:
作为价值函数。如果满足以下条件,则预训练价值函数可直接用于下游:(i) 它是一个动作条件 V (st, at) (Chang,2020);(ii) 它是一个替代-动作条件 Valt (st, aˆt),并且可以获得从 aˆ 到 a 的映射;或 (iii) 动态模型可用,允许使用一个无条件价值函数 V(st) 进行规划 (Du,2023b;Chang,2022)。
表示迁移。在视频预训练之后,价值函数可能需要对机器人数据进行微调:要么是为了提高域内性能,要么是为了允许机器人动作调节。Bhateja (2023) 从一个视频预训练价值函数,初始化其下游价值函数和策略表示。
基于潜能的奖励构建。奖励函数可以定义为:r = V (st+1) − V (st),并用于下游在线 RL(Edwards & Isbell,2019;Ye et al.,2023;Chang et al.,2022)。如果出现以下情况,则可能需要这样做:(i) 预训练价值函数不完全可靠,但可以提供有用的辅助奖励来指导探索;或 (ii) 价值函数不受动作条件限制,因此不适用于 Q 学习。
TD 引导。如果预训练价值函数不受动作-条件限制,它仍可用于加速下游 TD 学习,方法是使用其在 Bellman 备份中自举项的估计值(Edwards & Isbell,2019)。
LfV的数据集如图所示:底部的对数刻度图比较了三个不同类别中最大精选开源数据集的大小。InternVid(Wang,2023b)、Ego4D(Grauman,2021)和 Open X-Embodiment(Padalkar,2023)分别是最大的互联网抓取视频、自定义录制视频和机器人数据集。互联网视频比机器人数据丰富几个数量级。假设平均轨迹长度为 10 秒(数据集已经包含约 200 万条轨迹),估计 Open X-Embodiment 数据集中的小时数。YouTube 上的视频小时数是一个粗略计算(Sj ̈oberg,2023)。
需要
规模和多样性
内容相关性
语言标注
其他:连续性、分辨率、视频长度、其他模态
视频数据挑选
从互联网上抓取视频。抓取的典型流程包括:(i) 制定用于在存储库(例如 YouTube)中搜索候选视频的查询提示池;(ii) 对候选视频池进行后处理;(iii) 可选地重注释视频以提高标签质量。
录制新视频。
手工字幕。
自动字幕生成。
现存数据集
下表是现有视频数据集。列出的有:(顶部)大规模、互联网抓取的视频数据集,以及(底部)与机器人相关的、手动录制的视频数据集。数据集按视频总时长递减顺序排列。