知识图谱的向量表示方法

文章目录

- 知识图谱表示的挑战
- 词的向量表示方法

知识图谱表示的挑战

在前面提到的一些知识图谱的表示方法中，其基础大多是以三元组的方法对知识进行组织。在具体的知识库网络中，节点对应着三元组的头实体和尾实体，边对应着三元组的关系。虽然这种离散的符号化的表达方式可以非常有效地将数据结构化，但是在当前的大规模应用上也面临着巨大的挑战。知识以基于离散符号的方法进行表达，但这些符号并不能在计算机中表达相应语义层面的信息，也不能进行语义计算，对下游的一些应用并不友好。在基于网络结构的知识图谱上进行相关应用时，因为图结构的特殊性，应用算法的使用与图算法有关，相关算法具有较高的复杂度，面对大规模的知识库很难扩展。数据具有一定的稀疏性，现实中的知识图谱无论是实体还是关系都有长尾分布的情况，也就是某一个实体或关系具有极少的实例样本，这种现象会影响某些应用的准确率。从上面的问题可以看出，对于当前的数据量较大的知识图谱、变化各异的应用来说，需要改进传统的表示方法。

词的向量表示方法

在介绍有关知识图谱的向量表示方法之前，在此先介绍词的表示方法。在自然语言处理领域中，因为离散符号化的词语并不能蕴涵语义信息，所以将词映射到向量空间，这不仅有利于进行相应的计算，在映射的过程中也能使相关的向量蕴涵一定的语义。知识图谱中的向量表示方法也在此次有所借鉴。传统的独热编码（One-Hot Encoding）方法是将一个词表示成一个很长的向量，该向量的维度是整个词表的大小。对于某一个具体的词，在其独热表示的向量中，除了表示该词编号的维度为1，其余都为0。如下图所示，假如词Rome的编号为1，则在其独热编码中，仅有维度1是1，其余都是0。这种表示方法虽然简