什么是“扩散概率”（diffuse probability）

今天在看CS231n的时候看到了一个名词“diffuse probability”，扩散概率，Google了一下，在英文里直接定位到先验分布，用中文“扩散概率”查，有少数文献提到“扩散先验”
其实“diffuse probability”就应该是“diffuse prior”，diffuse prior 也称之为 Uninformative priors （非信息先验），是先验概率的一种形式，
关于设置 diffuse prior 的原则有很多（其实也不是很多），但是最古老也是最经典的是“无差别原则”，也就是对所有的可能出现的情况分配一个均等的概率。从信息论（最大熵原则）的观点出发其实也可以证明这点。对于系统来说，如果它揭露出的信息越少那么它的熵就越大。因此如果我们想在X上寻找一组熵最大的分布，这样过的分布是满足约束条件下所包含信息最少的。对于离散的概率分布，我们会为每一种可能的状态分配一个相等的先验概率。对于连续概率分布，当概率密度归一化为均值为零且方差为1时，使熵最大先验就是标准高斯分布。

参考文档：Prior probability

什么是“扩散概率”（diffuse probability）

悦读