23年8月份来自伯克利分校的世界模型论文“Learning to Model the World with Language“。
为了与人类互动并在世界中采取行动,智体需要了解人们使用的语言范围,并将其与视觉世界联系起来。虽然当前的智体学习从任务奖励中执行简单的语言指令,但工作的目标是构建一个利用各种语言来传达一般知识、描述世界状态、提供交互式反馈等的智体。该文关键思想是,语言可以帮助智体预测未来:将观察到什么,世界将如何表现,以及哪些情况将得到奖励。这种观点将语言理解与未来预测统一起来,作为一个强大的自监督学习目标。Dynalang,一个学习多模态世界模型以预测未来文本和图像表示的智体,并学习从想象的模型展开中采取行动。与仅使用语言来预测动作的传统智体不同,Dynalang 用过去的语言来预测未来的语言、视频和奖励,从而获得了丰富的语言理解。除了从环境中在线交互中学习外,Dynalang 还可以在文本、视频或两者的数据集上进行预训练,无需操作或奖励。从网格世界的语言提示到房屋导航级的逼真浏览,Dynalang 用各种类型的语言来提高任务性能,包括环境描述、游戏规则和说明。
如图所示,Dynalang学会用语言来预测未来的(文本+图像)观察和奖励,这点有助于它解决任务。该图展示了HomeGrid环境中的真实模型预测。该智体在接收来自环境的视频和语言观察的同时探索了各个房间。从过去的文字“瓶子在客厅里”,智体在时间步长61-65预测将在客厅的最后一个角落看到瓶子。从描述任务的文字“获取瓶子”中,智体预测将因捡起瓶子而获得奖励。智体还可以预测未来的文本观察:给定前缀“盘子是在”和在时间步长 30 从柜台上观察到盘子,模型预测最有可能的下一个token是“厨房”。
如图考虑具有视觉输入和多种语言类型的各种环境。HomeGrid 是一个具有挑战性的视觉网格世界,带说明和各种提示。Messenger 是一个基准测试,具有符号输入和数百个需要多跳推理(multi-hop reasoning)的人工编写游戏手册。Habitat 模拟逼真的 3D 房屋,进行视觉语言导航,智体必须在数百个场景中定位目标。LangRoom是一个简单的视觉网格世界,具有部分可观察性,智体需要产生电机的动作和语言。
Dynalang将多种模态编码为压缩的表征,然后预测给定动作的未来表示顺序,学习在视觉环境中用不同类型的语言。在基于模型的强化学习算法DreamerV3 [28]基础上,构建自己的算法,并将其扩展到处理和实际生成语言。世界模型从过去经验的重放缓冲区不断训练,同时智体与环境相互作用。此外,还可以从纯文本数据进行预训练。为了区分动作,从世界模型想象的一系列表征中训练一个演员-批评者(Actor- Critic)算法,如图所示。
世界模型学习智体接收的所有感觉模态表征,然后预测给定动作这些潜表征的顺序。预测未来表征不仅为视觉体验中的落地实施语言提供了丰富的学习信号,而且还允许从想象的序列中进行规划和策略优化。如图所示:在世界模型学习期间,模型将图像帧和文本的观察压缩为潜表示。训练模型预测下一个表示并从表示中重建观测值。在策略学习期间,从世界模型中对设想的扩展进行抽样,并对策略进行训练,最大化想象的奖励。
实际上,世界模型学习变分自动编码(VAE)目标,将输入图像 xt 和语言token lt 压缩为随机潜表示zt[36,57]。通过重建输入观察来塑造该表示,为落地实施提供丰富的学习信号。还预测奖励,判断这个情节(episode)是否继续 ,以便可以直接在潜表征之上学习策略,最后,这个表征正则化为代码的先验分布。用预测表征的分布作为这个先验,本质上表示的正则化是可预测的。
将世界建模与策略学习分开的一个潜在好处是,世界模型可以离线训练,受益于无动作的大规模纯文本和纯视频数据集。为了用纯文本数据预训练世界模型,将图像和动作输入归零,并将图像、奖励和情节持续解码器损失系数设置为 0,因此预训练侧重于学习去表征文本和文本动态(即语言建模)。然后,Dynalang可以从头开始初始化演员和评论家(actor - critic),对所有模式(语言,图像和动作)的经验进行微调,同时继续训练世界模型。请注意,与典型的语言建模目标不同,这个模型未显式地训练以预测前缀的下一个token,除非通过预测下一个时间步的表示形式来做到。
演员(actor)网络的目的是预测动作的分布,这可能是可能的运动方向,或语言token的分类,或者两者的分解动作空间。批评者(critic)的目的是,在指导演员学习的每个状态,估计未来奖励打折扣的和。
简而言之,在训练期间,生成长度 T = 15 的想象扩展,去训练策略。从重播缓冲区采样的状态开始,对来自演员(Actor)网络的动作和来自世界模型的观察进行采样。世界模型还预测奖励和情节延续标志旗,从中计算折扣 λ-回报。评论家(Critic)网络被训练来回归这些回报估计,其还由演员网络通过REINFORCE[67]训练来最大化。在环境交互期间,从演员那里采样动作,而无需规划。