softmax损失函数

信息熵
交叉熵
softmax损失函数

信息熵

首先我们来介绍一下信息熵。信息熵又叫KL散度，是信息的平均编码长度。给定信息出现的概率向量 $p = (p_1,p_2,...,p_n)$ ，其中 $p_i$ 为第 $i$ 条信息出现的概率，那么信息的平均编码长度为 $H(p)=\sum_i^np_i\log\frac{1}{p_i}$ 。举一个例子，比如现在要用为8个字符进行编码，每个字符出现的概率为 $1 / 8$ ，用Huffman树可求出最短编码方案，此时的Huffman树为：
Alt
可以计算出各点的深度为 $\log\frac{1}{p_i}$ ，再乘上期望求和便是信息熵。当然，公式中 $\log\frac{1}{p_i}$ 指的是只看概率 $p_i$ 而不了解其他信息概率时，该信息编码在对应的Huffman树中最大可能达到深度，因为有可能只有两个信息，一个信息出现概率为7/8，另外一个为1/8，这时候的深度就是1。但是无论概率分布是怎么样的，深度不可能超过 $\log\frac{1}{p_i}$ 。

交叉熵

交叉熵是针对两个概率向量 $p$ 和 $q$ 而言的，公式为 $H(p,q)=\sum_{i=1}^np_i\log\frac{1}{q_i}$ 。他指的是在信息出现的概率分布为 $p$ 的情况下，不用 $p$ 导出的Huffman树进行编码，而是用另外的一个概率分布 $q$ 导出的Huffman树进行编码的编码长度，而这种编码方案并不是最优的编码方案， $H(p,q)\leq H(p)$ 。