指数分布族的定义:
若一类概率分布可以写成如下形式,那么它就属于指数分布族:
η - 自然参数,通常是一个实数
T(y) – 充分统计量,通常,T(y)=y,实际上是一个概率分布的充分统计量(统计学知识)
对于给定的a,b,T三个函数,上式定义了一个以η为参数的概率分布集合,即改变η可以得到不同的概率分布。极限定理得)
记录一下几个指数分布族以及它们的特征:
正态分布(高斯分布)——总体噪音(由中心极限定理得)
伯努利分布——逻辑回归(对01问题建模)
多项式分布——K种结果的事情进行建模
泊松分布——对计数过程进行建模(一个样本中放射性衰变的数目,网站的访客数目,商店的顾客数目)
伽马分布,指数分布——正数的分布,对间隔进行建模(在公交车站等车的时间)
β分布,Dirichlet分布——对小数进行分布,对概率分布进行建模
Wishart分布——协方差的分布
如何从指数分布族去推导出广义线性模型(GLM):
假设:
(1) ,即假设试图预测的变量y在给定x,以θ作为参数的条件概率,属于以η作为自然参数的指数分布族
(2)给定x,目标是求出以x为条件的T(y)(就是将假定的概率分布转换成指数分布族的形式,求出a,b,t)的期望E[T(y)|x],即让学习算法输出h(x) = E[T(y)|x]
(3),即自然参数和输入特征x之间线性相关,关系由θ决定。仅当η是实数时才有意义。若η是一个向量,
举例:推导伯努利分布的GLM
,伯努利分布属于指数分布族
可知:
(将概率分布转换成指数分布族的形式)
由上式可见,η=log(φ/(1-φ)),可解出:φ=1/(1+exp(-η)),发现得到logistic函数,则:
对给定的x,θ,学习算法进行一次预测的输出:
得到logistic回归算法。
得到了算法后,我们要开始求解θ
参数的似然性:
求对数似然性:
为了使似然性最大化,类似于线性回归使用梯度下降(部分函数可以用牛顿方法)的方法,求对数似然性对的偏导,即:
因为求最大值,此时为梯度上升。
偏导数展开:
则:
然后迭代就好啦,迭代到一定条件收敛。就求出了,那么y与x的关系就得出了。就完成了线性模型的建立。
参考资料:
1. http://blog.csdn.net/pi9nc/article/details/12571657