Bootstrap

A survey on knowledge‑enhanced multimodal learning

摘要

多模态学习一直是一个日益受到关注的领域,旨在将各种模态结合为单一的联合表示。特别是在视觉语言(VL)领域,已经开发了多种模型和技术,针对涉及图像和文本的多种任务。VL模型通过扩展Transformer的理念,达到了前所未有的表现,使得两种模态可以相互学习。大规模的预训练程序使得VL模型能够获取一定程度的现实世界理解,尽管仍然可以识别出许多缺口:对常识、事实、时间性以及其他日常知识方面的有限理解,质疑了VL任务的扩展性。知识图谱和其他知识来源可以通过显式提供缺失信息来填补这些空白,解锁VL模型的新能力。与此同时,知识图谱增强了VL模型的可解释性、公平性和决策有效性,这些都是实现如此复杂应用的极其重要的问题。本研究旨在统一VL表示学习和知识图谱领域,并提供了一个知识增强VL模型的分类和分析。

1.引言

多模态表示学习一直是机器学习的一个领域,越来越受到人工智能研究界的关注。将来自不同模态(如图像和文本)的信息结合起来,可以提供更丰富的信息表示,因为它们为相同的实例提供了互补的见解。几项工作侧重于使用视觉和语言模式,引入了视觉问答(Agrawal等人,2016)、视觉推理(He等人,2021;Holzinger等人,2023)、视觉常识推理(Zellers等人,2019)、视觉蕴涵&#x

;