Bootstrap

KGE性能指标:MRR,MR,HITS@1,HITS@3,HITS@10

        本文将介绍用于衡量知识图谱嵌入(Knowledge Graph Embedding,KGE)模型性能中最常用的几个指标:MRR,MR,HITS@1,HITS@3,HITS@10。

一、MRR

        MRR的全称是Mean Reciprocal Ranking,其中Reciprocal是指“倒数的”的意思。具体的计算方法如下:

\mathbf{MRR}=\frac{1}{|S|}\sum_{i=1}^{|S|}\frac{1}{rank_i}=\frac{1}{|S|}(\frac{1}{rank_1}+\frac{1}{rank_2}+...+\frac{1}{rank_{|S|}})

其中S是三元组集合,|S|是三元组个数,rank_i是指第i个三元组的链接预测排名。该指标越大越好。例如,对于三元组(Jack,born_in,Italy),链接预测的结果可能是

s        p         o            score   rank
Jack   born_in   Ireland        0.789      1
Jack   born_in   Italy          0.753      2  *
Jack   born_in   Germany        0.695      3
Jack   born_in   China          0.456      4
Jack   born_in   Thomas         0.234      5

那么,三元组(Jack,born_in,Italy)的链接预测排名则是2.

二、MR

        MR的全称是Mean Rank。具体的计算方法如下:

\mathbf{MR}=\frac{1}{|S|}\sum_{i=1}^{|S|}{rank_i}=\frac{1}{|S|}({rank_1}+{rank_2}+...+{rank_{|S|}})

上述公式涉及的符号和MRR计算公式中涉及的符号一样。该指标越小越好。

三、HITS@n

        该指标是指在链接预测中排名小于n的三元组的平均占比。具体的计算方法如下:

\mathbf{HITS@}n=\frac{1}{|S|}\sum_{i=1}^{|S|}{\mathbb{I}(rank_i\leqslant n)}

其中,上述公式涉及的符号和MRR计算公式中涉及的符号一样,另外\mathbb{I}(\cdot )是indicator函数(若条件真则函数值为1,否则为0)。一般地,取n等于1、3或者10。该指标越大越好。

四、从论文上发现的观点

        MRR和HITS@10是两个重要指标,不可缺少。MR则不被认为是一个好的指标。

五、参考

        NSCaching: simple and efficient negative sampling for knowledge graph embedding

        How is hits@k calculated

悦读

道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。

;