Multi-Modal Knowledge Graph Construction and Application:A survey

3.Construction

MMKG构建的实质是将传统的KG中的符号知识（包括实体、概念、关系等）与相应的图像相关联。完成该任务有两种相反的方式:

labeling images with symbols in KG
grounding symbols in KG to images

3.1 from images to symbols:labeling images(从图像到符号：标记图像)

大多数图像标记解决方案学习从图像内容到各种各样的标签集的映射（包括objects,scenes,entities,attributes,relations,events and other symbols）

知名的基于图像的视觉知识提取系统（NETL、GAIA、RESIN）

可以通过图像标记来构建MMKG，将图像与符号链接的过程分为几个细分任务

visual entity/concept extraction
visual relation extraction
visual event extraction

3.1.1 Visual Entity/Concept Extraction

Visual entity/concept extraction aims to detect and locate target visual objects in images, then label these objects with entity/concept symbols in KG.

1.Challenges

如何在没有大规模，细粒度【1】，注释良好的概念和实体图像数据集的情况下学习有效的细粒度提取模型？（CV中虽有丰富的经过良好标注的图像数据图，但这些数据几乎都是粗粒度的概念图像，无法满足MMKG构建对细粒度概念和实体的图像标注数据的要求）

2.Progresses

视觉实体/概念提取大致分为两类

1.object recognition methods：

which label a visual entity/concept by classifying the region of a detected objects(对象识别方法，通过对检测到的对象的区域进行分类来标记视觉实体/概念);

2.visual grounding methods：

which label a visual entity/concept by mapping a word or phrase in a caption to the most relevant region(视觉基础方法，通过将标题中的单词或短语映射到最相关的区域来标记视觉实体/概念)

1)object recognition methods(对象识别方法）

一副图中可能有多个对象，需要预先训练的检测器和分类器来标记视觉实体（属性、场景）在图像中的位置。在检测期间，检测器为可能的对象捕获一组区域，并挑选出实际包含对象的区域。在各种检测器检测的位置，如基于MTCNN的人脸检测器和基于fast-CNN的车辆检测器（知道下）。预先训练的分类器具有实体级（eg:bmw320）或概念级（eg:car）标签的候选视觉对象。

由于许多物体都是相同实体在不同视角、位置、姿势和外观的重复实例，因此要在其中选择最具代表性的视觉对象来生成视觉实体，一般方法是对图像区域进行聚类【2】，每一聚类的中心被视为一个新的视觉实体。

监督解决的缺点：若需要解决大量的标签（数十亿个实体），则需要大量预处理工作（如预定义规则，预定义可识别实体列表，预训练的细粒度检测器和分类器），因此会降低解决方案的可扩展性。

2）visual grounding methods(视觉接地法，也是解决上述监督缺点提出的方法)

因为网上有许多图像-标题对，以弱监督的提取视觉知识而不依赖与标记的包围框。因此该方法就是定位标题中每个短语对应的图像区域，从而获得带有标签的图像中的视觉对象。

具体：根据空间热图【3】直接为给定单词选择活动像素作为视觉对象区域。其中，每个短语的热图可以通过基于注意的方法【4】和基于显著性的方法【5】作为交叉模态权重来学习。其中，

基于显著性方法：通过梯度计算【6】将像素对给定短语的灵敏度作为heatmap的值

基于注意的方法：将交叉模态相关性作为热图值（more popular）

在测试时，对热图进行阈值处理，以获得一个可视化对象的合适的边界框。如果KG中现有视觉实体/概念的边界与新的边界之间无重叠，则该边界被创建为一个新的视觉实体/concept

缺点：有时候会不匹配（文字-图像）->努力方法：增加对常见概念，关系，事件论据的约束，以增加监督信息。（eg：troops may be mapped to several individuals wearing military uniforms,这就只是相关而非等价）

视觉定位可以是实体、概念（place，car,stone），属性（red,short）

3.Opportunities

在不需要额外训练的情况下，可以在模型的自注意图中直接看到图像斑块和单词的映射-ViLT
人、地标建筑的多模态训练语言模型-CLIP
预训练好的视觉变形模型已经有很强的视觉对象分割能力，即使在高糊情况情况下也能聚焦于前景对象-DINO，这将提高视觉对象的定义和跨模态知识对齐的性能。

PS：【1】细粒度：信息描述详细

【2】聚类:

可能会使用K-means方法进行聚类。可以使用scikit-learn的集群方法来创建集群。聚类出现在生成的图像中，将其分成几个部分，并使用不同的颜色。人们可以改变聚类的数量，用不同的颜色直观地验证图像，并决定是否与所需的集群数量紧密匹配。一旦集群形成，就可以用集群中心和标签重新创建图像，以分组模式显示图像。（例它会根据图像密度将图像分为几个不同的区域。）

【3】空间热图：

通过热图可以简单地聚合大量数据，并使用一种渐进的色带来优雅地表现，最终效果一般优于离散点的直接显示，可以很直观地展现空间数据的疏密程度或频率高低。但也由于很直观，热图在数据表现的准确性并不能保证。

生成原理:

1）为离散点设定一个半径，创建一个缓冲区；

（2）对每个离散点的缓冲区，使用渐进的灰度带（完整的灰度带是0~255）从内而外，由浅至深地填充；

（3）由于灰度值可以叠加（值越大颜色越亮，在灰度带中则显得越白。在实际中，可以选择ARGB模型中任一通道作为叠加灰度值），从而对于有缓冲区交叉的区域，可以叠加灰度值，因而缓冲区交叉的越多，灰度值越大，这块区域也就越“热”；

（4）以叠加后的灰度值为索引，从一条有256种颜色的色带中（例如彩虹色）映射颜色，并对图像重新着色，从而实现热点图。

每个单一热点有一个Weight，默认设为1，目前暂时没有用到（ArcGIS Flex的热图实现中，Weight用来在地图缩小时累加多个离散点聚合后中心灰度值的大小。）Weight不是类似通常二维空间数据中的第三维属性数据，热图只能表现离散点空间上的频率，而不能表现其属性在空间上的分布。例如地震震源的热图，并不能表示其震级大小的空间分布，而只能表现地震次数的多少。HeatMap热图原理 - 简书

【4】基于注意的方法，【5】基于显著性的方法：

一文读懂注意力机制 - 知乎

【6】梯度计算

梯度下降优化算法综述_null的专栏-CSDN博客_梯度下降算法

3.1.2 Visual Relation Extraction

aims at identifying semantic relations among detected visual entities/concepts in images, then labeling them with the relations in KGs.

1.Challenges

aims to identify more grneral types of semanic relations that are difined in KGs such as(Jack,spouse,Rose),not superficial visual relationship such as(person,standing on,beach).

2.Progresses

visual extraction two categories:

rule-based relation extraction
statistic-based relation extraction

other work focus on: long-tail relation and fine-grained relation

1) Rule-based relation extraction

traditional rule-based methods mainly focus on specific type of relation such as spatial relation,action relation

标准通常由专家预先定义，并采用启发式方法【1】对判别特征进行评分和选择。

基于规则方法，要检测的关系是根据标签的类型和区域的相对位置定义的（such as keyboard is a partof laptop）

shortcoming:依赖大量手工

advantage:提供高度精确的视觉关系

2）Statistic-based General Relation Extraction

将被检测对象的视觉特征，空间特征等编码成分布式向量->分类模型，预测固定对象之间的关系

相比rule-based的优点：能检测出训练集中出现的所有关系

研究表明，谓词（也就是代表关系）的预测严重依赖于主语和宾语，但主、宾不依赖谓；主宾也无依赖关系，因此，利用依赖性，通过对象的标签将语言模型的语言先验信息添加到计算模型中，设定更严格的约束，即一个三元组的隐含层表示应满足：主+谓（约）= 宾

eg：person ride/wear elephant(其中ride>wear)=>person ride elephant

Pity:语言模型带来很大进步，但是，视觉信息却很少

图像中检测到的对象和关系可以用图形表示。图的结构使边能够从其他节点获得更多的信息，使边能够以更高的准确率对关系进行分类。例如，可以将对象和关系表示为两个互补的子图，其中节点根据周围边的值迭代更新，反之亦然。也可以使用注意GCN学习上下文对象和边。

3）Long-tail and Fine-grained Relation Extraction

Long-tail statistic-based methods can detect general relation ,but it is difficult to detect long-tail relation.->提出a new unbiased metric(Mean Recall@K)to average the recall of all type of relations instead of all samples, and avoiding the neglect of relations with only few samples.

Fine-grained:Fine-grained relation is a kind of long-tail relation.

但现在未能很好地区分fine-grained relation

eg:models tend to predict "on" instead of fine-grained relation "sit on/walk on/lay on",为了得到更fine-grained and informative unbiased prediction->uses counterfactual causation【2】(反事实因果关系)以代替conventional likelihood（传统的可能性）来消除上下文偏见的影响。

But,it is more difficult to detect more complex and fine-grained relation such as human-object interaction and action detection.因为人的姿态是由身体的许多部分组成的。

eg:"person,play,violin","person,hold,violin"

在早期的研究中，动作被定义为身体不同部位的一系列姿势，并通过启发式方法挖掘其判别特征。在目前基于统计的检测中，对判别特征进行了更严格的对比损失函数滤波，明显还是过于粗糙。

3.Opportunities

1)Visual Knowledge Relation Judgement（视觉知识关系判断）

从图像中提取的只是描述图像场景的三元组，而非可广泛接受的视觉知识。

challenge：如何从场景信息的三元组中识别视觉知识的三元组

2）Relation Detection based on Reasoning(基于推理的关系检测)

现有的关系检测方法通过融合视觉特征和语言先验的隐藏统一表示来预测关系，但我们无法说出预测的基础。

eg:构建一个人体动作数据集，以帮助预测身体部位状态的动作

a person & a football in an image & (head,look,sth),(arm,swing,-),(foot,kick,sth) are satisied =>(person,kick,footbal)

But,Unfortunately 这个数据集是手动构建的，为了关系预测，我们需要自动总结推理过程。

PS：【1】启发式方法

启发式方法指人在解决问题时所采取的一种根据经验规则进行发现的方法。其特点是在解决问题时,利用过去的经验,选择已经行之有效的方法，而不是系统地、以确定的步骤去寻求答案。

【2】反事实因果关系：

反事实因果(Counterfactual)简介 - 知乎

3.1.3 Visual Event Extraction

事件通常定义为参数之间的动态交互，包括一个触发器和几个具有相应参数角色的参数。

触发器：是证明一个事件发生的动词或名词；

参数角色：指事件和参数之间的语义关系，如时间、人物、地点；

参数：是实体提及，概念，属性值。

传统的事件提取任务：通过触发器预测事件类型->根据预定义的事件模型提取其参数

视觉事件提取任务分为2个：

预测视觉事件类型
定位和提取源图像或视频中的对象作为视觉参数

1.Challenge

1)视觉事件提取需要针对不同的事件类型定义预定义模式，但有大量视觉事件尚未被专家定义，如何将可视化模型师自动挖掘为事件模式？

2）如何从图像或视频中提取视觉事件的视觉参数？

2.Progress

现有的视觉事件抽取工作主要集中在两个方面

1）可视化事件模式，将最相关的可视化实体（或概念）检测并标记为新的模式

2）可视化事件参数提取，根据事件模式从可视化数据中提取参数角色区域

1）Visual Event Schema Mining

SituNet,SWiG数据集已经定义了很多可视化事件模式。

该任务是识别一个视觉事件，而非定位和提取视觉参数，视觉参数检测依赖于被测对象的共现和相对位置。

但由于大量视觉图式还没有被手工定义，故可以从大量图像-标题对使得挖掘和标记事件模式成为可能。

任务简化为：从给定事件的图像中找到表示正确事件类型的频繁模式项集。

事件的图像集合可以图像-标题对中检索，事件的触发器作为查询

(visual grounding methods)->将候选图像块用字幕中的单词或短语标记出来

(heuristic approaches)->挖掘频繁的视觉图像块，找到关联规则，通过视觉模式预测事件类型

挖掘和标记方法能够纠正错误的参数，或在手工定义的可视化事件模式中添加缺少的参数。

eg:在attack中，本体专家认为explosion & weapons 是重要items，但在一些新闻语料库中，这些概念并没有被发现，而smoke、ploice出现频率更多。

2）Visual Event Arguments Extraction

视觉事件参数提取实际上是提取一组带有关系约束的视觉对象。视觉参数可以用：完全监督方法（object recognition）或弱监督方法（visual grounding）

根据视觉事件提取的两个子任务：

根据事件图像的全局特征对事件类型进行分类
事件参数被提取为对事件类型最敏感的局部区域

然而在弱监督方法中，不能确保提取到的视觉对象关系与文本关系是否一致，视觉参数和文本参数的关系也应分别对齐。->解决：将从事件图像中提取到的情境图与抽象意义表示图进行对齐

与图像相比，视频更适合提取事件，因为一个事件的事件边界框可能会跨越整个视频，所有的参数可能不会再一帧中显示。为了简化任务【93】从仅包含一个事件的短视频片段中提取三个关键帧的参数，这些关键帧是与视频字幕最匹配的关键帧。

3.Opportunities

该课题研究尚处于初级阶段，仍有许多问题值得探讨

1）从包含多个事件的长视频中提取顺序事件的问题还没有得到解决；

2）多子事件视频事件提取。

eg:"making coffee":cleaning coffee machine->pour in the coffee bean->turn on the coffee machine,每个步骤都视为一个事件。

顺序的步骤需要按照步骤的事件轴提取并列出，这是目前的方法难以解决的问题

3.2 From Symbols to Images:Symbol Grounding

symbol grounding指寻找合适的多模态数据项（如图像）来表示传统KG中存在的符号知识的过程。与图像标注（image labeling）方式相比，symbol grounding方式在MMKG建造中应用更为广泛，大多数现有的MMKG都是以这种方式构建的。

3.2.1 Entity Grounding

实体接地的目的是将KG中的实体接地到它们相应的多模态数据，如图像，视频，音频，现有的工作主要集中在实体与它们对应图像的接地。

1.Challenges

1)如何以较低的成本为实体找到足够多的高质量图像

2）如何从大量的噪声中选择最匹配的实体图像

2.Progress

2种可以找到实体的图像：来自在线百科全书（Wikimedia）;通过网络搜索引擎

1）From Online Encyclopedia(在线百科全书)

Wikipedia&DBpedia提供很多工具（such as Wikimedia Commons）来帮助在DBpedia中的实体和Wikipedia中相应的图像或其他模态数据之间建立连接。

但该the encyclopedia-based approach缺点有3：

每个实体的图像数量有限，维基百科中每个实体的平均图像数量是16；
维基百科中的许多实体图像只与对应实体相关，而不是确切的所指的实体；此外，非视觉实体的图像也会带来错误（eg:在维基百科中关于高斯进程的文章，有一个高斯进程的图像，它具有不同的先验条件，实际上不应该映射到任何图像）
维基百科构建的覆盖率仍需提高，wikipedia has 6 millions of entities(articles),是其获取的MMKG容量的上线，近80%的英文wikipedia文章中没有相应图片，只有8.6%的人有两张以上的图片。

2）From Search Engines（为了提高MMKG的覆盖率）

通过指定实体名作为查询，在搜索引擎中可以美滋滋的查，但是，

该方法在MMKG中很容易引入错误的事实，因为1因为噪音2指定搜索关键字并非易事（人们做了很多努力清理候选图像）->查询词通常通过添加父同义词集【1】或实体类型进行扩展以消除歧义。
同时，在为实体选择最佳图像时，多样性也是一个不容忽视的问题（对图像多样性检索模型进行训练）->去除冗余的相似图像，从而使固定的图像尽可能多样

由于实体及其视觉特征在构建过程中的解耦【2】，基于实体接地的MMKG能够区分视觉上相似的实体。实体接地方法时建造面向领域细粒度MMKG（eg：电影\产品\军工）成为可能

1)方法+2)方法结合使用，可以使知识互相补充（因为1的覆盖率不高，2覆盖率高但质量差）

Opportunities

该方向有许多未解决的问题

1）实体被固定在几个图像中，每个图像只是实体的一个方面（eg：一个人的图像集合可以是不同年龄的图像，生活照片，活动照片，单身照片和家庭照片），如何确定最典型的子集？

2）现实世界中的实体是多方面的，在不同环境下，人们希望将一个实体与多个图像相关联，这促使我们提出了一项新任务“multiple grounding”，从给定特定背景的实体中选择最相关的图像。

该任务困难的原因有：

1.实体的图像也很难构建，因为无法保证图像的完整性，并且很容易错过某些特定上下文的相关图像。

2.在特定的上下文中为实体消除图像歧义是一项挑战，因为上下文通常有噪声，并且包含稀疏信息，并且需要更多的背景知识来指导语义信息的获取。

3.缺少标记数据是一个大问题

PS：

【1】父同义词集

知识图谱（KG）中的同义词挖掘_夕小瑶的卖萌屋-CSDN博客_知识图谱同义词

【2】解耦

耦合是指两个或两个以上的体系或两种运动形式间通过相互作用而彼此影响以至联合起来的现象。

用数学方法将两种运动分离开来处理问题，常用解耦方法就是忽略或简化对所研究问题影响较小的一种运动，只分析主要的运动。

数学中解耦是指使含有多个变量的数学方程变成能够用单个变量表示的方程组，即变量不再同时共同直接影响一个方程的结果，从而简化分析计算选择适当的控制规律将一个多变量系统化为多个独立的单变量系统的控制问题。

在解耦控制问题中，基本目标是设计一个控制装置，使构成的多变量控制系统的每个输出变量仅由一个输入变量完全控制，且不同的输出由不同的输入控制。

完全解耦控制：对于输出和输入变量个数相同的系统，如果引入适当的控制规律，使控制系统的传递函数矩阵为非奇异对角矩阵，就称系统实现了完全解耦。

静态解耦控制：一个多变量系统在单位阶跃函数（见过渡过程）输入作用下能通过引入控制装置实现稳态解耦时，就称实现了静态解耦控。

软件解耦：说起软件的解耦必然需要谈论耦合度，降低耦合度即可以理解为解耦，模块间有依赖关系必然存在耦合，理论上的绝对零耦合是做不到的，但可以通过一些现有的方法将耦合度降至最低。

3.2.2 Concept Grounding

concept grounding旨在为视觉概念寻找具有代表性，有区别性和多样性的图像

1.Challenges

1)并不是所有概念都能可视化（eg:宗教信仰），如何区分可视化概念和非可视化概念？

2）如何从一组相关图像中找到一个可视化概念的代表性图像？（因为可视化概念的图像可能非常多样，eg:公主（Disney princesses,ancient princesses,modern princesses,so on））

2.Progress

由于上述挑战，研究分为了3个任务

可视化概念判断（宗教信仰）
代表性图像选择（公主）
图像多样化

1）Visualization Concept Judgement

为了自动判断视觉概念，人们在语法和语义的基础上进行了大量的研究。TinyImage删了抽象名词概念的图像，只收集非抽象名词的图像（但该方法不可取）

->使用搜索引擎点击来识别概念（例如如果谷歌图片的点击量>谷歌网页的点击量，那么该单词可能是可见的）

此外，还可以利用高质量视觉概念图像的代表性、辨别性【1】等特征对视觉概念进行识别。[104]认为代表性图像的前景相似，易于与背景分离，类间方差小【2】。进而[104]训练分类器选择其图像集合具有这些特征的概念。

2）Representative Image Selection

根据图像的代表性对其重新排序。

其中的代表性：根据聚类的方法（如K-means,spectral clustering）的结果进行评分，聚类内的方差越小，聚类中图像的得分就越高，排名就越靠前，也就是代表图片。

此外，期望的图像还受到规则的约束，以区分不同的聚类。例如[105]添了一个新的指标，将图像与类内相似性一起排序，即类间距离和类内距离的比率，比率越大，图像的区分性越强。

来自搜索引擎的图像标题和标签也可用来评估图像在语义层上面的代表性和区分性，标题和标签提供了图像所没有的语义信息，标签基于语义特征进行聚类，图像根据标签的语义聚类重新分配到每个聚类中。

3）Image Diversification

去平衡多样性和相关性，聚类后，图像也应重新排序，但与代表性图像选择的区别在希望显示尽可能多的聚类结果。具体来说，在每次选择中，尝试从集群中选择尚未选择的图像。

有两种评分对选择的优先级进行排序:多样性评分和相关性评分，其中多样性评分对图像主题进行评价，相关性评分对图像的差异进行惩罚，以避免语义漂移。为了将两个有冲突的分数结合起来，[108]，[109]使用MaxMin方法来选择候选:将与所选集合不相似的图像赋以较高的分数，然后在其余相似的图像中选择得分最高的不相似的图像。

也可以用图算法来解决排序问题。一组图像可以表示为一个图，其中图像是节点，图像之间的视觉相似性是边缘的权值。因此，代表性图像的排序简化为在全连通图中根据边的重加权值寻找最优路径。[110]利用动态规划在图像图中寻找最优序列，其中边缘值是结合多样性评分和相关性评分的联合准则。[103][111]中的最优序列也使用了马尔可夫随机游动；其中[111]通过max-min方法对值进行加权[103]通过两层图模型根据其源簇重新安排访问节点之间的值

Opportunities(这是一个刚起步的领域)

1）Abstract Concept Grounding(抽象概念基础)

抽象概念也可以以图像为基础（例如快乐-微笑，愤怒-愤怒脸），

一些抽象名词具有多样但固定的视觉联想（如beauty-woman/girl,water/beach/ocean,flower/rose）

=>一些抽象名词往往在情感上有一般固定意象，在语义上有区别的意象

2）Gerunds Concept Grounding(动名词的概念基础)

通过众包【2】将许多动名词转化为图像（例如arguing with,wrestling with,dancing with）这些关于人类互动的动词对人的身体健康，注释角度，关节位置和表情等特征非常敏感。

3）Non-visualizable Concept Grounding via Entity Grounding

如果一个概念不好可视化，但概念的实体可以可视化，那么这个概念也可以通过其实体来展示（如，physicist(non-visualizable concept)-爱因斯坦.jpg）

但仍旧有许多未解决的问题：

a.应该在概念基础上解决这种主观性（不同的人对一个概念有不同的典型实体），在概念的约束下，一个实体是否是一个典型的实体？

b.我们应该选择几种类型的实体图像来呈现这个概念，如何总结和选择代表概念的典型实体？

c.我们是否应该从实体的多个图像中提取共同的视觉特征？

PS：

【1】高质量视觉概念图像的代表性、辨别性

https://wenku.baidu.com/view/b0de878afab069dc51220125.html

【2】代表性图像的前景相似，易于与背景分离，类间方差小

最大类间方差法是由日本学者大津(Nobuyuki Otsu)于1979年提出的,是一种自适合于双峰情况的自动求取阈值的方法,又叫大津法,简称Otsu。它是按图像的灰度特性,将图像分成背景和目标两部分。背景和目标之间的类间方差越大,说明构成图像的两部分的差别越大,当部分目标错分为背景或部分背景错分为目标都会导致两部分差别变小。因此,使类间方差最大的分割意味着错分概率最小。

【2】众包

知识图谱研讨实录07丨肖仰华教授带你读懂知识图谱的众包构建_博文视点（北京）官方博客-CSDN博客_众包知识图谱

3.2.3 Relation Grounding（该小节没懂）

找到可以代表特定关系的图像

The input could be one or more triples of this relation, and the output is expected to be the most representative images for the relation.

（输入可以是这个关系的一个或多个三元组，输出应该是这个关系中最具代表性的图像。）

1.Challenges

当我们使用三元组作为查询来检索关系的图像时，排名靠前的图像通常与三元组的主语和宾语更相关，但与关系本身无关。如何能找到能够反映输入三元组语义关系的图像呢？

2.Progress

现有的relation grounding主要集中在空间或动作上，如left of,ride,eat

文本查询可以通过AMR图【1】(subject, relation, object)的形式表示为结构化数据[98]，候选图像也可以被构造为场景图【2】[113]。然后，将结构化文本和结构化图像进行细粒度级匹配，可以采用文本-图像匹配或图形匹配的方法，具体介绍如下。

1)Text-Image Matching:在文本-图像匹配任务中，文本和图像通常表示为一个统一的语义嵌入空间中的向量。通过交叉模态表示的相似度得分找到与查询最匹配的图像。全局表示的缺点是缺乏显式细粒度关系[35]的语义。除了基于表示的检索之外，一种更方便的方法是基于标题的检索，就像互联网上的搜索引擎。基于标题的检索的缺点是没有利用视觉特征进行匹配。

为了表示目标间的显式关系，许多研究都集中在考虑图像局部结构的图像编码器上。最终的图像表示是全局视觉特征、局部结构特征和文本对齐嵌入的融合[78]、[114]、[115]。在[78]中，所有一阶(实体或概念)、二阶(属性或动作)、三阶(三重)事实都用统一的设置(s, p, o)建模，分别用多层图像编码器不同分支的输出表示。[115]使用场景图来表示一幅图像中所有的triple (s, p, o)，并使用图卷积神经网络来学习视觉关系。最后，每幅图像所学习到的具有关联特征的视觉表示必须接近字幕中对应单词的文本嵌入。因此，匹配的图像可以通过使用一个三元组作为查询而不是一个句子来直接检索。

多模态预训练语言模型是考虑对象(实体或概念)和三元组的图像编码器的一种新选择。对于每个图像-标题对，使用场景图解析器根据图像标题生成包含对象、属性和关系的场景图，然后使用UNIMO[51]随机替换对象、属性,并且场景图的关系节点与对应词汇表中的对象、属性或关系不同，生成大量的硬负样本。erievil[52]通过增加目标预测、属性预测和关系预测三个训练前任务，增强了视觉和语言模型的能力。

2)Graph Matching:我们希望通过对象和关系的显式匹配来建立关系，而不是统一的跨模态嵌入的隐式匹配。一种更方便的方法是基于标题的检索，就像互联网上的搜索引擎一样，匹配实体的标记以及查询和标题之间的关系。基于标题的检索的缺点是没有利用视觉特征进行匹配。例如，Richpedida[25]提出了一个非常强的假设，即如果维基百科描述中两个实体之间存在预定义的关系(如nearBy和contain)，那么两个实体对应的视觉实体之间也存在相同的关系。但在现实中，这两个物体更有可能不会同时出现在一张图像中。即使他们这样做，在一个图像中可能没有预期的关系。

如果我们将文本查询和候选图像表示为图形，关系接地任务将变成图形匹配任务，如图8所示。一幅图像可以被构造成一个图，其中节点是对象，边是关系。文本查询中的依赖项可以建模为依赖项解析树，它也是一个图。一个简单的解决方案是只匹配两个图中的对象和共现关系，而不预测关系类型[113]。[113]假设两个实体之间存在关联，则认为该关联为匹配，这也是一个强假设。显然，关系预测模块是必不可少的。[116]分别用GCN表示两个场景图，其中对象更新自自身，关系节点更新自其邻居的聚合。在预测时，分别度量两种不同形式的图的相似度:对象节点匹配和关系节点匹配。

3.Opportunities

现有的研究主要集中在地面空间关系和动作关系，这些都可以在图像中直观地观察到。然而，大多数其他关系在图像中可能并不明显，如isA、Occupation, Team and Spouse。这些关系通常缺乏训练数据，因此用上述两种解决方案训练模型检索图像比较困难。

PS：

【1】ARM图

几个常见的知识图谱架构图_lzw17750614592的博客-CSDN博客_知识图谱架构

【2】场景图

知识图谱场景图的搜索结果_百度图片搜索