在介绍KL散度和JS散度之前,我们需要了解什么是信息熵,什么是交叉熵。
香农信息量、信息熵
香农信息量用于刻画消除随机变量X在x处的不确定性所需的信息量的大小
当对数的底数为2时,香农信息量的单位为比特
香农信息量描述的是随机变量在某一点处的信息量,而衡量随机变量在整个样本空间的信息量,就需要用随机变量X的信息熵,可以将信息熵理解为是香农信息量的数学期望,即P(x)加权求和,因此可以将信息熵理解为消除随机变量不确定性所需的总体信息量的大小,熵越大,随机变量的不确定性就越大,数学定义如下:
交叉熵
假设用q(x)来拟合p(x)的概率分布,交叉熵用来描述p和q的相似性,表示在给定的真实分布下,使用非真实分布用来消除系统不确定性所需付出的努力的大