-
作者:Haochen Zhang, Nader Zantout, Pujith Kachana, Zongyuan Wu, Ji Zhang, Wenshan Wang
-
单位:卡内基梅隆大学机器人研究所
-
原文链接:VLA-3D: A Dataset for 3D Semantic Scene Understanding and Navigation (https://semrob.github.io/docs/rss_semrob2024_cr_paper12.pdf)
-
代码链接:https://github.com/HaochenZ11/VLA-3D
主要贡献
-
VLA-3D数据集融合了五个真实世界数据集与Unity合成场景,涵盖超过11.5万个3D室内房间扫描,为视觉与语言导航智能体训练提供多样化数据。
-
该数据集提供点云、对象列表、可通行空间及区域列表,并包含场景图,通过空间关系连接对象,减少歧义。
-
每个对象配备语义标签、边界框及参考性语言描述,以增强机器人对自然语言指令的理解和响应能力。
研究背景
研究问题
尽管近年来大语言模型(LLMs)和视觉语言模型(VLMs)取得了显著进展。
但在任意场景中使用自然语言进行空间推理和语义理解仍然具有挑战性,特别是在包含许多细粒度类别的对象的复杂场景中。
因此,论文主要解决如何在室内导航中使用自然语言指令。
研究难点
该问题的研究难点包括:
-
场景中可能包含数百个对象,这些对象属于细粒度类别且存在许多相似对象;
-
人类参考语言通常涉及空间推理、可供性、开放词汇语言,甚至可能是错误的或指向不存在的事物;
-
与2D数据相比,3D空间中可用的视觉语言数据规模较小。
相关工作
该问题的研究相关工作包括:
-
2D空间的对象参考数据集(如CLEVR),
-
3D空间的对象参考数据集(如ReferIt3D、ScanRefer、SceneVerse),
-
3D场景图数据集(如3DSSG、Hydra、HOV-SG、ConceptGraphs),
-
以及指令跟随数据集(如Room Across Room、Room-2-Room)。
尽管这些数据集在某些方面有所贡献,但它们在自然语言表达的直观性、数据规模或适用于导航任务的设计上仍存在不足。
VLA-3D
论文提出了一个名为VLA-3D的新数据集,用于解决3D场景中的视觉和语言引导动作问题。
数据集构建
VLA-3D基于来自五个真实世界数据集的3D扫描(ScanNet、Matterport3D、Habitat-Matterport 3D、3RScan、ARKitScenes)以及在Unity中生成的场景。
每个场景提供点云文件、对象列表及其语义类标签、边界框和颜色、可导航的自由空间列表、带语义标签和边界框的区域列表、按房间分割的空间关系场景图以及带有地面真值注释的语言语句。
3D扫描处理
从原始PLY文件中获取场景级点云文件,并从原始网格文件中均匀采样点云文件和颜色。利用原始网格中的语义信息识别区域和对象。
对于每个标记的对象,存储开放词汇类名并将其语义类别映射到NYU40和NYUv2模式。
场景图生成
-
使用基于启发式的八种不同类型的语义空间关系计算场景图。
-
关系针对区域内每对或每三元组对象进行穷尽生成,然后根据涉及的语义类别进行过滤。
-
所有关系都是二元的,除了“之间”关系是三元关系。
语言生成
基于计算的场景图使用模板生成方法合成参考语言语句。每个语句至少有一个语义关系,并且仅在需要时使用对象属性来区分目标对象。生成的语句具有以下特点:
-
视域无关:目标对象的关系谓词不依赖于从哪个角度查看场景。
-
无歧义:在区域内只有一种可能的目标对象。
-
最小化:遵循Grice的方式准则,使用尽可能少的描述符来消除歧义。
实验
基线模型
为了验证VLA-3D数据集的挑战性,论文评估了两个SOTA的参考对象定位基线模型MVT和3D-VisTA在该数据集上的性能。
测试结果也与其他数据集(如Nr3D和Sr3D)上的训练性能进行了比较。
结果与分析
性能评估
-
MVT和3D-VisTA在VLA-3D数据集上的表现远低于其在ReferIt3D基准测试上的表现。
-
MVT在VLA-3D上的准确率为22.5%,而3D-VisTA为28.9%,表明现有方法在复杂真实世界场景中的跨域泛化能力较差。
失败案例分析
失败案例主要归因于对象分类错误、语言语义推理错误(如混淆目标对象和锚定对象)或空间推理错误(如选择错误的“干扰对象”)。
这些性能差异表明现有方法在处理复杂真实世界场景时的局限性。
总结
论文介绍了VLA-3D数据集,专为3D场景中的视觉与语言动作引导设计。
该数据集集成了多空间关系和丰富的语言语句,适用于结构化场景表示指导下的目标对象定位。