Bootstrap

有代码Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-ModalStructured Representations

摘要

大规模视觉语言预训练在多模态理解和生成任务中取得了显著的效果。然而,现有的方法在需要结构化表示(即对象、属性和关系的表示)的图像-文本匹配任务上通常表现不佳。这些模型无法区分“宇航员骑马”和“马骑宇航员”。这是因为他们在学习多模态表示时没有充分利用结构化知识。在本文中,我们提出了一个端到端框架StructureCLIP,它集成了场景图知识(Scene Graph Knowledge, SGK)来增强多模态结构化表示。首先,我们使用场景图来指导语义否定样例的构建,这使得学习结构化表征变得更加重要。此外,提出了一种知识增强编码器(KEE),利用SGK作为输入进一步增强结构化表示。为了验证所提出框架的有效性,我们使用上述方法预训练我们的模型,并在下游任务上进行实验。实验结果表明,Structure-CLIP在VG-Attribution和VG-Relation数据集上达到了最先进的SOTA性能,分别比多模态SOTA模型高出12.5%和4.1%。同时,MSCOCO结果表明,Structure-CLIP在保持一般表征能力的同时,显著增强了结构化表征。我们的代码可在https://github.com/zjukg/ Structure-CLIP上获得。

;