摘要
多模态知识图以实体和关系的形式组织多模态事实,并已成功地应用于一些下游任务。由于大多数MKG是不完整的,因此提出了MKG完成任务来解决这个问题,其目的是完成MKG中缺失的实体。以往的研究大多通过捕获目标三元组与相关图像之间的相关性来获得推理能力,但忽略了语境语义信息,推理过程不易解释。为了解决这些问题,我们提出了一种新的文本增强变压器融合网络,该网络将头部和尾部实体之间的上下文路径转换为自然语言文本,并通过多粒度融合器融合粗粒度和细粒度的多模态特征。它不仅有效地增强了文本语义信息,而且通过引入路径提高了模型的可解释性。在基准数据集上的实验结果证明了该模型的有效性。
1.引言
知识图(KG)是一种图结构的语义网络,其中节点表示实体,边表示实体之间的关系。由于图像图像通常包含视觉信息,近年来,多模态图像在多个领域受到了广泛关注。然而,由于新的实体和关系的不断出现,大多数现有的mkg是不完整的,即有许多缺失的环节。因此,MKG补全(MKGC)被提出来解决这一问题,它旨在利用文本和图像信息来补全缺失的事实。
近年来,基于多模态的分析方法已成功地应用于各个领域。例如,Zhang等人提出了一种基于多模态的量子启发情感分析框架。此外,近年来深度神经网络的发展为MKGC任