Bootstrap

知识图谱的向量表示方法

知识图谱表示的挑战

    在前面提到的一些知识图谱的表示方法中,其基础大多是以三元组的方法对知识进行组织。在具体的知识库网络中,节点对应着三元组的头实体和尾实体,边对应着三元组的关系。虽然这种离散的符号化的表达方式可以非常有效地将数据结构化,但是在当前的大规模应用上也面临着巨大的挑战。知识以基于离散符号的方法进行表达,但这些符号并不能在计算机中表达相应语义层面的信息,也不能进行语义计算,对下游的一些应用并不友好。在基于网络结构的知识图谱上进行相关应用时,因为图结构的特殊性,应用算法的使用与图算法有关,相关算法具有较高的复杂度,面对大规模的知识库很难扩展。数据具有一定的稀疏性,现实中的知识图谱无论是实体还是关系都有长尾分布的情况,也就是某一个实体或关系具有极少的实例样本,这种现象会影响某些应用的准确率。从上面的问题可以看出,对于当前的数据量较大的知识图谱、变化各异的应用来说,需要改进传统的表示方法。

词的向量表示方法

    在介绍有关知识图谱的向量表示方法之前,在此先介绍词的表示方法。在自然语言处理领域中,因为离散符号化的词语并不能蕴涵语义信息,所以将词映射到向量空间,这不仅有利于进行相应的计算,在映射的过程中也能使相关的向量蕴涵一定的语义。知识图谱中的向量表示方法也在此次有所借鉴。传统的独热编码(One-Hot Encoding)方法是将一个词表示成一个很长的向量,该向量的维度是整个词表的大小。对于某一个具体的词,在其独热表示的向量中,除了表示该词编号的维度为1,其余都为0。如下图所示,假如词Rome的编号为1,则在其独热编码中,仅有维度1是1,其余都是0。这种表示方法虽然简

;