§ 6.3 最大似然估计与 EM 算法
最大似然估计 (MLE) 最早是由德国数学家高斯 (Gauss) 在 1821
年针对正态分布提出的, 但一般将之归功于费希尔, 因为费希尔在 1922
年再次提出了这种想法并证明了它的一些性质而使得最大似然法得到了广泛的应用.
本节将给出最大似然估计的定义与计算及求取某些复杂情况下 MLE
的一种有效算法------M 算法, 并介绍最大似然估计的渐近正态性.
6.3.1 最大似然估计
为了叙述最大似然原理的直观想法, 先看两个例子.
例 6.3.1 设有外形完全相同的两个箱子, 甲箱中有 99 个白球和 1
个黑球,乙箱中有 99 个黑球和 1 个白球, 今随机地抽取一箱,
并从中随机抽取一球, 结果取得白球, 问这球是从哪一个箱子中取出?
解 不管是哪一个箱子, 从箱子中任取一球都有两个可能的结果: A A A 表示
“取出白球”, B B B 表示"取出黑球". 如果我们取出的是甲箱, 则 A A A
发生的概率为 0.99 , 而如果取出的是乙箱, 则 A A A 发生的概率为 0.01 .
现在一次试验中结果 A A A 发生了, 人们的第一印象就是: “此白球 ( A ) (A) (A)
最像从甲箱取出的”, 或者说, 应该认为试验条件对结果 A A A
出现有利,从而可以推断这球是从甲箱中取出的. 这个推断很符合人们的经验事实,
这里 “最像"就是"最大似然"之意. 这种想法常称为"最大似然原理”.
本例中假设的数据很极端.一般地, 我们可以这样设想: 有两个箱子中各有 100
只球, 甲箱中白球的比例是 p 1 p_{1} p1, 乙箱中白球的比例是 p 2 p_{2} p2, 已知
p 1 > p 2 p_{1}>p_{2} p1>p2, 现随机地抽取一个箱子并从中抽取一球, 假定取到的是白球,
如果我们要在两个箱子中进行选择, 由于甲箱中白球的比例高于乙箱,
根据最大似然原理,我们应该推断该球来自甲箱.
例 6.3.2 设产品分为合格品与不合格品两类, 我们用一个随机变量 X X X
来表示某个产品经检查后的不合格品数, 则 X = 0 X=0 X=0 表示合格品, X = 1 X=1 X=1
表示不合格品, 则 X X X 服从二点分布 b ( 1 , p ) b(1, p) b(1,p), 其中 p p p
是未知的不合格品率. 现抽取 n n n 个产品看其是否合格, 得到样本
x 1 , x 2 ⋯ , x n x_{1}, x_{2} \cdots, x_{n} x1,x2⋯,xn, 这批观测值发生的概率为
P ( X 1 = x 1 , X 2 = x 2 , ⋯ , X n = x n ; p ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i = p ∑ i = 1 n x i ( 1 − p ) n − ∑ i = 1 n x i , P\left(X_{1}=x_{1}, X_{2}=x_{2}, \cdots, X_{n}=x_{n} ; p\right)=\prod_{i=1}^{n} p^{x_{i}}(1-p)^{1-x_{i}}=p^{\sum_{i=1}^{n} x_{i}}(1-p)^{n-\sum_{i=1}^{n} x_{i}}, P(X1=x1,X2=x2,⋯,Xn=xn;p)=i=1∏npxi(1−p)1−xi=p∑i=1nxi(1−p)n−∑i=1nxi,
由于 p p p 是未知的, 根据最大似然原理, 我们应选择 p p p 使得 (6.3.1)
表示的概率尽可能大.将 (6.3.1) 看作未知参数 p p p 的函数, 用 L ( p ) L(p) L(p) 表示,
称作似然函数, 亦即
L ( p ) = p ∑ i = 1 n x i ( 1 − p ) n − ∑ i = 1 n x i , L(p)=p^{\sum_{i=1}^{n} x_{i}}(1-p)^{n-\sum_{i=1}^{n} x_{i}}, L(p)=p∑i=1nxi(1−p)n−∑i=1nxi,
要求 (6.3.2) 的最大值点不是难事, 将 (6.3.2) 两端取对数并关于 p p p
求导令其为 0 , 即得如下方程, 又称似然方程:
∂ ln L ( p ) ∂ p = ∑ i = 1 n x i p − n − ∑ i = 1 n x i 1 − p = 0. \frac{\partial \ln L(p)}{\partial p}=\frac{\sum_{i=1}^{n} x_{i}}{p}-\frac{n-\sum_{i=1}^{n} x_{i}}{1-p}=0 . ∂p∂lnL(p)=p∑i=1nxi−1−pn−∑i=1nxi=0.
解之即得 p p p 的最大似然估计,为
p ^ = p ^ ( x 1 , x 2 , ⋯ , x n ) = ∑ i = 1 n x i / n = x ˉ . \hat{p}=\hat{p}\left(x_{1}, x_{2}, \cdots, x_{n}\right)=\sum_{i=1}^{n} x_{i} / n=\bar{x} . p^=p^(x1,x2,⋯,xn)=i=1∑nxi/n=xˉ.
由例 6.3.2 我们可以看到求最大似然估计的基本思路. 对离散总体,
设有样本观测值 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn,
我们写出该观测值出现的概率, 它一般依赖于某个或某些参数, 用 θ \theta θ
表示, 将该概率看成 θ \theta θ 的函数, 用 L ( θ ) L(\theta) L(θ) 表示, 又称似然函数,
即
L ( θ ) = P ( X 1 = x 1 , X 2 = x 2 , ⋯ , X n = x n ; θ ) , L(\theta)=P\left(X_{1}=x_{1}, X_{2}=x_{2}, \cdots, X_{n}=x_{n} ; \theta\right), L(θ)=P(X1=x1,X2=x2,⋯,Xn=xn;θ),
求最大似然估计就是找 θ \theta θ 的估计值
θ ^ = θ ^ ( x 1 , x 2 , ⋯ , x n ) \hat{\theta}=\hat{\theta}\left(x_{1}, x_{2}, \cdots, x_{n}\right) θ^=θ^(x1,x2,⋯,xn)
使得上式的 L ( θ ) L(\theta) L(θ) 达到最大.
对连续总体, 样本观测值 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn 出现的概率总是为 0
的,
但我们可用联合概率密度函数来表示随机变量在观测值附近出现的可能性大小,
也将其称为似然函数,由此, 我们给出如下定义.
定义 6.3.1 设总体的概率函数为 p ( x ; θ ) , θ ∈ Θ p(x ; \theta), \theta \in \Theta p(x;θ),θ∈Θ, 其中
θ \theta θ 是一个未知参数或几个未知参数组成的参数向量, Θ \Theta Θ
是参数空间, x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn 是来自该总体的样本,
将样本的联合概率函数看成 θ \theta θ 的函数, 用
L ( θ ; x 1 , x 2 , ⋯ , x n ) L\left(\theta ; x_{1}, x_{2}, \cdots, x_{n}\right) L(θ;x1,x2,⋯,xn) 表示, 简记为
L ( θ ) L(\theta) L(θ),
L ( θ ) = L ( θ ; x 1 , x 2 , ⋯ , x n ) = p ( x 1 ; θ ) p ( x 2 ; θ ) ⋯ p ( x n ; θ ) , L(\theta)=L\left(\theta ; x_{1}, x_{2}, \cdots, x_{n}\right)=p\left(x_{1} ; \theta\right) p\left(x_{2} ; \theta\right) \cdots p\left(x_{n} ; \theta\right), L(θ)=L(θ;x1,x2,⋯,xn)=p(x1;θ)p(x2;θ)⋯p(xn;θ),
L ( θ ) L(\theta) L(θ) 称为样本的似然函数. 如果某统计量
θ ^ = θ ^ ( x 1 , x 2 , ⋯ , x n ) \hat{\theta}=\hat{\theta}\left(x_{1}, x_{2}, \cdots, x_{n}\right) θ^=θ^(x1,x2,⋯,xn) 满足
L ( θ ^ ) = max θ ∈ θ L ( θ ) , L(\hat{\theta})=\max _{\theta \in \theta} L(\theta), L(θ^)=θ∈θmaxL(θ),
则称 θ ^ \hat{\theta} θ^ 是 θ \theta θ 的最大似然估计, 简记为 MLE (maximum
likelihood estimate).
由于 ln x \ln x lnx 是 x x x 的单调增函数, 因此, 使对数似然函数 ln L ( θ ) \ln L(\theta) lnL(θ)
达到最大与使 L ( θ ) L(\theta) L(θ) 达到最大是等价的. 人们通常更习惯于由
ln L ( θ ) \ln L(\theta) lnL(θ) 出发寻找 θ \theta θ 的最大似然估计. 当 L ( θ ) L(\theta) L(θ)
是可微函数时, 求导是求最大似然估计最常用的方法,
此时对对数似然函数求导更加简单些.
注意, 从最大似然估计的定义可以看出, 若 L ( θ ) L(\theta) L(θ)
与联合概率函数相差一个与 θ \theta θ 无关的比例因子, 不会影响最大似然估计,
因此, 可以在 L ( θ ) L(\theta) L(θ) 中剔去与 θ \theta θ 无关的因子.
例 6.3.3 (续例 6.2.6) 在例 6.2.6 中我们给出了 θ \theta θ 的三个矩估计,
这里考虑 θ \theta θ 的最大似然估计. 似然函数为
L ( θ ) = ( θ 2 ) n 1 [ 2 θ ( 1 − θ ) ] n 2 [ ( 1 − θ ) 2 ] n 3 = 2 n 2 θ 2 n 1 + n 2 ( 1 − θ ) 2 n 3 + n 2 , L(\theta)=\left(\theta^{2}\right)^{n_{1}}[2 \theta(1-\theta)]^{n_{2}}\left[(1-\theta)^{2}\right]^{n_{3}}=2^{n_{2}} \theta^{2 n_{1}+n_{2}}(1-\theta)^{2 n_{3}+n_{2}}, L(θ)=(θ2)n1[2θ(1−θ)]n2[(1−θ)2]n3=2n2θ2n1+n2(1−θ)2n3+n2,
其对数似然函数为
ln L ( θ ) = ( 2 n 1 + n 2 ) ln θ + ( 2 n 3 + n 2 ) ln ( 1 − θ ) + n 2 ln 2. \ln L(\theta)=\left(2 n_{1}+n_{2}\right) \ln \theta+\left(2 n_{3}+n_{2}\right) \ln (1-\theta)+n_{2} \ln 2 . lnL(θ)=(2n1+n2)lnθ+(2n3+n2)ln(1−θ)+n2ln2.
将之关于 θ \theta θ 求导并令其为 0 得到似然方程
2 n 1 + n 2 θ − 2 n 3 + n 2 1 − θ = 0. \frac{2 n_{1}+n_{2}}{\theta}-\frac{2 n_{3}+n_{2}}{1-\theta}=0 . θ2n1+n2−1−θ2n3+n2=0.
解之, 得
θ ^ = 2 n 1 + n 2 2 ( n 1 + n 2 + n 3 ) = 2 n 1 + n 2 2 n . \hat{\theta}=\frac{2 n_{1}+n_{2}}{2\left(n_{1}+n_{2}+n_{3}\right)}=\frac{2 n_{1}+n_{2}}{2 n} . θ^=2(n1+n2+n3)2n1+n2=2n2n1+n2.
由于
∂ 2 ln L ( θ ) ∂ θ 2 = − 2 n 1 + n 2 θ 2 − 2 n 3 + n 2 ( 1 − θ ) 2 < 0 , \frac{\partial^{2} \ln L(\theta)}{\partial \theta^{2}}=-\frac{2 n_{1}+n_{2}}{\theta^{2}}-\frac{2 n_{3}+n_{2}}{(1-\theta)^{2}}<0, ∂θ2∂2lnL(θ)=−θ22n1+n2−(1−θ)22n3+n2<0,
所以 θ ^ \hat{\theta} θ^ 是极大值点.
例 6.3.4 对正态总体
N ( μ , σ 2 ) , θ = ( μ , σ 2 ) N\left(\mu, \sigma^{2}\right), \theta=\left(\mu, \sigma^{2}\righ