5 MULTI-MODAL KGR MODEL
5.1 Review on Reasoning Techniques
直接将静态KGR模型应用于多模态场景通常会导致次优的性能表现,因为缺乏融合额外多模态信息的模块,例如文本、图像等。基于融合这些多模态信息的技术,我们大致将多模态KGR模型分为两种类型:基于Transformer的模型和非Transformer模型。
5.1.1 Transformer-based Models
基于Transformer的模型通常被采纳为多模态问题的统一范式,因为它们在扩展到不同模态时展现出良好的能力。
尽管一些通用的多模态预训练Transformer模型,如VisualBERT [170]、ViLBERT [171],也可以用于多模态KGR。由于多模态KG与其他多模态数据之间存在差异,直接将上述通用MPT模型应用于多模态知识图谱推理(MKGR)可能不会带来良好的推理表现。受此启发,研究人员近两年来尝试开发基于Transformer的多模态KGR模型。VBKGC [172]利用预训练的Transformer编码多模态特征,并设计了一个多模态评分函数进行优化。随后,Knowledge-CLIP [173]利用CLIP模型