此示例是 什么是极大似然估计 中的一个例子,本文的目的是给出更加详细的方程求解步骤,便于数学基础不好的同学理解。
目标
假设我们有一组样本数据 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,…,xn,它们来自一个正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),我们的目标是通过极大似然估计(MLE)来找到正态分布的两个参数 μ \mu μ 和 σ 2 \sigma^2 σ2。
对数似然函数
正态分布的概率密度函数为:
f
(
x
i
∣
μ
,
σ
2
)
=
1
2
π
σ
2
exp
(
−
(
x
i
−
μ
)
2
2
σ
2
)
f(x_i | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right)
f(xi∣μ,σ2)=2πσ21exp(−2σ2(xi−μ)2)
给定样本
x
1
,
x
2
,
…
,
x
n
x_1, x_2, \dots, x_n
x1,x2,…,xn,样本的似然函数为:
L
(
μ
,
σ
2
)
=
∏
i
=
1
n
1
2
π
σ
2
exp
(
−
(
x
i
−
μ
)
2
2
σ
2
)
L(\mu, \sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right)
L(μ,σ2)=i=1∏n2πσ21exp(−2σ2(xi−μ)2)
对似然函数取对数,得到对数似然函数:
ℓ
(
μ
,
σ
2
)
=
log
L
(
μ
,
σ
2
)
=
∑
i
=
1
n
log
(
1
2
π
σ
2
exp
(
−
(
x
i
−
μ
)
2
2
σ
2
)
)
\ell(\mu, \sigma^2) = \log L(\mu, \sigma^2) = \sum_{i=1}^n \log \left( \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right) \right)
ℓ(μ,σ2)=logL(μ,σ2)=i=1∑nlog(2πσ21exp(−2σ2(xi−μ)2))
我们可以将对数似然函数分解为三部分:
ℓ
(
μ
,
σ
2
)
=
−
n
2
log
(
2
π
)
−
n
2
log
(
σ
2
)
−
1
2
σ
2
∑
i
=
1
n
(
x
i
−
μ
)
2
\ell(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi) - \frac{n}{2} \log(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2
ℓ(μ,σ2)=−2nlog(2π)−2nlog(σ2)−2σ21i=1∑n(xi−μ)2
现在我们分别对 μ \mu μ 和 σ 2 \sigma^2 σ2 求导。
一、对 μ \mu μ 求导
首先,对
μ
\mu
μ 求导,方程中的
μ
\mu
μ 仅出现在最后一项
∑
i
=
1
n
(
x
i
−
μ
)
2
\sum_{i=1}^n (x_i - \mu)^2
∑i=1n(xi−μ)2 中,因此我们只对这一项求导:
ℓ
(
μ
,
σ
2
)
=
−
1
2
σ
2
∑
i
=
1
n
(
x
i
−
μ
)
2
\ell(\mu, \sigma^2) = -\frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2
ℓ(μ,σ2)=−2σ21i=1∑n(xi−μ)2
对
μ
\mu
μ 求导:
∂
ℓ
∂
μ
=
−
1
2
σ
2
⋅
2
∑
i
=
1
n
(
x
i
−
μ
)
(
−
1
)
\frac{\partial \ell}{\partial \mu} = -\frac{1}{2\sigma^2} \cdot 2 \sum_{i=1}^n (x_i - \mu) (-1)
∂μ∂ℓ=−2σ21⋅2i=1∑n(xi−μ)(−1)
简化后为:
∂
ℓ
∂
μ
=
1
σ
2
∑
i
=
1
n
(
x
i
−
μ
)
\frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu)
∂μ∂ℓ=σ21i=1∑n(xi−μ)
将这个导数设为 0,来找到
μ
\mu
μ 的极大似然估计:
1
σ
2
∑
i
=
1
n
(
x
i
−
μ
)
=
0
\frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu) = 0
σ21i=1∑n(xi−μ)=0
因为
σ
2
≠
0
\sigma^2 \neq 0
σ2=0,我们可以省略
1
σ
2
\frac{1}{\sigma^2}
σ21,得到:
∑
i
=
1
n
(
x
i
−
μ
)
=
0
\sum_{i=1}^n (x_i - \mu) = 0
i=1∑n(xi−μ)=0
简化为:
n
μ
=
∑
i
=
1
n
x
i
n\mu = \sum_{i=1}^n x_i
nμ=i=1∑nxi
因此,
μ
\mu
μ 的极大似然估计为:
μ
^
=
1
n
∑
i
=
1
n
x
i
\hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i
μ^=n1i=1∑nxi
这意味着,样本的均值是 μ \mu μ 的极大似然估计。
二、对 σ 2 \sigma^2 σ2 求导
接下来我们对
σ
2
\sigma^2
σ2 求导。对数似然函数中关于
σ
2
\sigma^2
σ2 的部分是:
ℓ
(
μ
,
σ
2
)
=
−
n
2
log
(
2
π
)
−
n
2
log
(
σ
2
)
−
1
2
σ
2
∑
i
=
1
n
(
x
i
−
μ
)
2
\ell(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi) - \frac{n}{2} \log(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2
ℓ(μ,σ2)=−2nlog(2π)−2nlog(σ2)−2σ21i=1∑n(xi−μ)2
我们对 σ 2 \sigma^2 σ2 求导,逐项进行求导:
-
第一项 − n 2 log ( 2 π ) -\frac{n}{2} \log(2\pi) −2nlog(2π) 是常数,对 σ 2 \sigma^2 σ2 求导为 0。
-
第二项 − n 2 log ( σ 2 ) -\frac{n}{2} \log(\sigma^2) −2nlog(σ2):
使用对数函数的求导公式 d d σ 2 ( log σ 2 ) = 1 σ 2 \frac{d}{d\sigma^2} (\log \sigma^2) = \frac{1}{\sigma^2} dσ2d(logσ2)=σ21,我们有:
∂ ∂ σ 2 ( − n 2 log ( σ 2 ) ) = − n 2 σ 2 \frac{\partial}{\partial \sigma^2} \left( -\frac{n}{2} \log(\sigma^2) \right) = -\frac{n}{2\sigma^2} ∂σ2∂(−2nlog(σ2))=−2σ2n -
第三项 − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 -\frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 −2σ21∑i=1n(xi−μ)2:
使用 d d σ 2 ( 1 σ 2 ) = − 1 σ 4 \frac{d}{d\sigma^2} \left( \frac{1}{\sigma^2} \right) = -\frac{1}{\sigma^4} dσ2d(σ21)=−σ41,我们得到:
∂ ∂ σ 2 ( − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 ) = 1 2 σ 4 ∑ i = 1 n ( x i − μ ) 2 \frac{\partial}{\partial \sigma^2} \left( - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \right) = \frac{1}{2\sigma^4} \sum_{i=1}^n (x_i - \mu)^2 ∂σ2∂(−2σ21i=1∑n(xi−μ)2)=2σ41i=1∑n(xi−μ)2
将各项导数结果组合
我们将对数似然函数中所有关于
σ
2
\sigma^2
σ2 的项求导结果组合起来:
∂
ℓ
∂
σ
2
=
−
n
2
σ
2
+
1
2
σ
4
∑
i
=
1
n
(
x
i
−
μ
)
2
\frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n (x_i - \mu)^2
∂σ2∂ℓ=−2σ2n+2σ41i=1∑n(xi−μ)2
设置导数为 0,解出 σ 2 \sigma^2 σ2
为了找到
σ
2
\sigma^2
σ2 的极大似然估计,我们将导数设为 0:
−
n
2
σ
2
+
1
2
σ
4
∑
i
=
1
n
(
x
i
−
μ
)
2
=
0
-\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n (x_i - \mu)^2 = 0
−2σ2n+2σ41i=1∑n(xi−μ)2=0
1. 消去常数 1 2 \frac{1}{2} 21
为了简化方程,两边同时乘以 2 消去常数:
−
n
σ
2
+
1
σ
4
∑
i
=
1
n
(
x
i
−
μ
)
2
=
0
-\frac{n}{\sigma^2} + \frac{1}{\sigma^4} \sum_{i=1}^n (x_i - \mu)^2 = 0
−σ2n+σ41i=1∑n(xi−μ)2=0
2. 将 n σ 2 \frac{n}{\sigma^2} σ2n 移到右边
将方程重排:
1
σ
4
∑
i
=
1
n
(
x
i
−
μ
)
2
=
n
σ
2
\frac{1}{\sigma^4} \sum_{i=1}^n (x_i - \mu)^2 = \frac{n}{\sigma^2}
σ41i=1∑n(xi−μ)2=σ2n
3. 乘以 σ 4 \sigma^4 σ4
为了消去
σ
4
\sigma^4
σ4,我们将方程两边乘以
σ
4
\sigma^4
σ4:
∑
i
=
1
n
(
x
i
−
μ
)
2
=
n
σ
2
\sum_{i=1}^n (x_i - \mu)^2 = n \sigma^2
i=1∑n(xi−μ)2=nσ2
4. 解出 σ 2 \sigma^2 σ2
将
σ
2
\sigma^2
σ2 留在一边,解出:
σ
2
=
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
\sigma^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2
σ2=n1i=1∑n(xi−μ)2
这个结果就是 σ 2 \sigma^2 σ2 的极大似然估计,即样本方差公式。
总结
我们通过对正态分布的对数似然函数分别对 μ \mu μ 和 σ 2 \sigma^2 σ2 求导,得到以下结论:
-
均值 μ \mu μ 的极大似然估计:
μ ^ = 1 n ∑ i = 1 n x i \hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i μ^=n1i=1∑nxi
即样本的均值是 μ \mu μ 的极大似然估计。 -
方差 σ 2 \sigma^2 σ2 的极大似然估计:
σ ^ 2 = 1 n ∑ i = 1 n ( x i − μ ^ ) 2 \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \hat{\mu})^2 σ^2=n1i=1∑n(xi−μ^)2
即样本方差是 σ 2 \sigma^2 σ2 的极大似然估计。