本文是依照《彻底理解样本方差为何除以n-1》一文进行学习而做的学习笔记,是在学习前面一文的基础上,对某些步骤添加了一些自己的理解,如果有什么不对的地方还请各位道友多多指正哈!当然以后要是突然明白真正的道理的话还是会继续改正的~~下面进入正文
这位篇文章的博主其他文章也很好,需要的小伙伴要留意一下喔
*想到这个问题的来源:
在降维算法中,PCA使用的信息量衡量指标,就是样本方差,其公式如下
V
a
r
=
1
n
−
1
∑
i
=
1
n
(
x
i
−
X
ˉ
)
2
Var=\frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{X})^2
Var=n−11i=1∑n(xi−Xˉ)2
哎?突然发现,样本量不是n吗,为什么前面要除以一个n-1,按照正常来说不是除以n的吗
解释使用n-1的目的
其实,除以n-1就是为了得到样本方差的无偏估计,那么问题随之而来,什么是样本方差的无偏估计,凭什么就说除以n-1就可以,为什么不能除以n-2呢,带着这个问题,在下面就开始展开了和蔼可亲的长篇的验证
*对上方种种疑问的解决过程(证明为什么要使用n-1)
首先说明各个变量公式:
- X ˉ \bar{X} Xˉ : 样本的均值
- S 2 S^2 S2 : 样本方差
- μ \mu μ : 总体均值
- σ 2 \sigma^2 σ2 : 总体方差
样本方差
S
2
S^2
S2的公式:
S
2
=
1
n
−
1
∑
i
=
1
n
(
x
i
−
X
ˉ
)
2
S^2=\frac{1}{n-1} \sum_{i=1}^{n} (x_i-\bar{X})^2
S2=n−11i=1∑n(xi−Xˉ)2
由上方提到过,n-1的目的是得到样本方差的无偏估计,那么什么是无偏估计
无偏估计(借用上方链接的例子来理解):
假如你想知道一所大学里学生的平均身高是多少,一个大学好几万人,全部统计有点不现实,但是你可以先随机挑选100个人,统计他们的身高,然后计算出他们的平均值,记为 X 1 ˉ \bar{X_1} X1ˉ。如果你只是把 X 1 ˉ \bar{X_1} X1ˉ作为整体的身高平均值,误差肯定很大,因为你再随机挑选出100个人,身高平均值很可能就跟刚才计算的不同,为了使得统计结果更加精确,你需要多抽取几次,然后分别计算出他们的平均值,分别记为: X 1 ˉ \bar{X_1} X1ˉ、 X 2 ˉ \bar{X_2} X2ˉ、 … \ldots … X k ˉ \bar{X_k} Xkˉ 然后在把这些平均值,再做平均,记为: E ( X ˉ ) E(\bar{X}) E(Xˉ),这样的结果肯定比只计算一次更加精确,随着重复抽取的次数增多,这个期望值会越来越接近总体均值 μ \mu μ,如果满足 E ( X ˉ ) = μ E(\bar{X})=\mu E(Xˉ)=μ,这就是一个无偏估计,其中统计的样本均值也是一个随机变量, X i ˉ \bar{X_i} Xiˉ就是 X ˉ \bar{X} Xˉ的一个取值
无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。
我们计算的样本方差,希望它是总体方差的一个无偏估计,那么假如我们的样本方差是如下形式:
S
2
=
1
n
∑
i
=
1
n
(
x
i
−
X
ˉ
)
2
S^2=\frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{X})^2
S2=n1i=1∑n(xi−Xˉ)2
根据无偏估计的定义可得:
E
(
S
2
)
=
E
(
1
n
∑
i
=
1
n
(
x
i
−
X
ˉ
)
2
)
=
E
(
1
n
∑
i
=
1
n
(
(
x
i
−
μ
)
−
(
X
ˉ
−
μ
)
)
2
)
对
x
i
和
X
ˉ
同
时
减
去
μ
=
E
(
1
n
∑
i
=
1
n
(
(
x
i
−
μ
)
2
−
2
(
x
i
−
μ
)
(
X
ˉ
−
μ
)
+
(
X
ˉ
−
μ
)
2
)
打
开
平
方
=
E
(
1
n
∑
i
=
1
n
(
(
x
i
−
μ
)
2
−
1
n
∑
i
=
1
n
2
(
x
i
−
μ
)
(
X
ˉ
−
μ
)
+
1
n
∑
i
=
1
n
(
X
ˉ
−
μ
)
2
)
\begin{aligned} E(S^2)&=E(\frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{X})^2) \\ &=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)-(\bar{X}-\mu))^2) ~~~~~~~~~对x_i和\bar{X}同时减去\mu \\ &=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2-2(x_i-\mu)(\bar{X}-\mu)+(\bar{X}-\mu)^2) ~~打开平方 \\ &=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2-\frac{1}{n} \sum_{i=1}^{n} 2(x_i-\mu)(\bar{X}-\mu)+\frac{1}{n} \sum_{i=1}^{n}(\bar{X}-\mu)^2) \end{aligned}
E(S2)=E(n1i=1∑n(xi−Xˉ)2)=E(n1i=1∑n((xi−μ)−(Xˉ−μ))2) 对xi和Xˉ同时减去μ=E(n1i=1∑n((xi−μ)2−2(xi−μ)(Xˉ−μ)+(Xˉ−μ)2) 打开平方=E(n1i=1∑n((xi−μ)2−n1i=1∑n2(xi−μ)(Xˉ−μ)+n1i=1∑n(Xˉ−μ)2)
对于均值的公式:
- E ( X ) = 1 n ∑ i = 1 n x i E(X)=\frac{1}{n}\sum_{i=1}^{n}x_i E(X)=n1∑i=1nxi
- E ( C ) = C E(C)=C E(C)=C 常数的均值还是常数本身
- E ( C X ) = C E ( X ) E(CX)=CE(X) E(CX)=CE(X)
- 由于 1 n ∑ i = 1 n x i = X ˉ \frac{1}{n} \sum_{i=1}^{n}x_i=\bar{X} n1∑i=1nxi=Xˉ
- 1 n ∑ i = 1 n ( x i − μ ) = 1 n ∑ i = 1 n x i − μ = X ˉ − μ \frac{1}{n} \sum_{i=1}^{n}(x_i-\mu)=\frac{1}{n} \sum_{i=1}^{n}x_i-\mu=\bar{X}-\mu n1∑i=1n(xi−μ)=n1∑i=1nxi−μ=Xˉ−μ
对于:
1
n
∑
i
=
1
n
2
(
x
i
−
μ
)
(
X
ˉ
−
μ
)
对
于
X
ˉ
和
μ
在
这
里
都
是
常
数
,
所
以
相
减
也
为
常
数
=
2
(
X
ˉ
−
μ
)
∗
1
n
∑
i
=
1
n
(
x
i
−
μ
)
=
2
(
X
ˉ
−
μ
)
(
X
ˉ
−
μ
)
使
用
上
面
均
值
公
式
里
面
的
第
三
第
四
点
,
对
上
式
进
行
化
简
=
2
(
X
ˉ
−
μ
)
2
\begin{aligned} &~~~~~\frac{1}{n} \sum_{i=1}^{n} 2(x_i-\mu)(\bar{X}-\mu)~~~~~~对于\bar{X}和\mu在这里都是常数,所以相减也为常数 \\&=2(\bar{X}-\mu)*\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu) \\&=2(\bar{X}-\mu)(\bar{X}-\mu) ~~~~~~使用上面均值公式里面的第三第四点,对上式进行化简 \\&=2(\bar{X}-\mu)^2 \end{aligned}
n1i=1∑n2(xi−μ)(Xˉ−μ) 对于Xˉ和μ在这里都是常数,所以相减也为常数=2(Xˉ−μ)∗n1i=1∑n(xi−μ)=2(Xˉ−μ)(Xˉ−μ) 使用上面均值公式里面的第三第四点,对上式进行化简=2(Xˉ−μ)2
1 n ∑ i = 1 n ( X ˉ − μ ) 2 = ( X ˉ − μ ) 2 对 于 X ˉ 和 μ 在 这 里 都 是 常 数 , 所 以 相 减 也 为 常 数 \begin{aligned} &~~~~~~\frac{1}{n} \sum_{i=1}^{n}(\bar{X}-\mu)^2 \\&=(\bar{X}-\mu)^2~~~~~~~对于\bar{X}和\mu在这里都是常数,所以相减也为常数~~~~~~~~~~~~~~~~~~~~~~~~~~~ \end{aligned} n1i=1∑n(Xˉ−μ)2=(Xˉ−μ)2 对于Xˉ和μ在这里都是常数,所以相减也为常数
对上方
E
(
S
2
)
E(S^2)
E(S2)继续计算:
E
(
S
2
)
=
E
(
1
n
∑
i
=
1
n
(
(
x
i
−
μ
)
2
−
1
n
∑
i
=
1
n
2
(
x
i
−
μ
)
(
X
ˉ
−
μ
)
+
1
n
∑
i
=
1
n
(
X
ˉ
−
μ
)
2
)
=
E
(
1
n
∑
i
=
1
n
(
(
x
i
−
μ
)
2
−
2
(
X
ˉ
−
μ
)
2
+
(
X
ˉ
−
μ
)
2
)
由
上
面
拆
分
出
去
化
简
的
式
子
可
得
=
E
(
1
n
∑
i
=
1
n
(
(
x
i
−
μ
)
2
−
(
X
ˉ
−
μ
)
2
)
=
E
(
1
n
∑
i
=
1
n
(
(
x
i
−
μ
)
2
)
−
E
(
(
X
ˉ
−
μ
)
2
)
\begin{aligned} E(S^2)&=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2-\frac{1}{n} \sum_{i=1}^{n} 2(x_i-\mu)(\bar{X}-\mu)+\frac{1}{n} \sum_{i=1}^{n}(\bar{X}-\mu)^2) \\ &= E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2-2(\bar{X}-\mu)^2+(\bar{X}-\mu)^2)~~~~由上面拆分出去化简的式子可得 \\&=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2-(\bar{X}-\mu)^2) \\&=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2)-E((\bar{X}-\mu)^2) \end{aligned}
E(S2)=E(n1i=1∑n((xi−μ)2−n1i=1∑n2(xi−μ)(Xˉ−μ)+n1i=1∑n(Xˉ−μ)2)=E(n1i=1∑n((xi−μ)2−2(Xˉ−μ)2+(Xˉ−μ)2) 由上面拆分出去化简的式子可得=E(n1i=1∑n((xi−μ)2−(Xˉ−μ)2)=E(n1i=1∑n((xi−μ)2)−E((Xˉ−μ)2)
突然发现
μ
\mu
μ是总体均值,那么
1
n
∑
i
=
1
n
(
(
x
i
−
μ
)
2
\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2
n1i=1∑n((xi−μ)2就是总体方差
σ
2
\sigma^2
σ2,总体方差是根据总体数据求出来的(我理解的解释是只有一个总体方差),所以对其取均值还是本身:
1
n
∑
i
=
1
n
(
(
x
i
−
μ
)
2
=
E
(
1
n
∑
i
=
1
n
(
(
x
i
−
μ
)
2
)
=
σ
2
\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2)=\sigma^2
n1i=1∑n((xi−μ)2=E(n1i=1∑n((xi−μ)2)=σ2
可以观察出
E
(
S
2
)
=
1
n
∑
i
=
1
n
(
(
x
i
−
μ
)
2
)
−
E
(
(
X
ˉ
−
μ
)
2
≤
σ
2
E(S^2)=\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2)-E((\bar{X}-\mu)^2\leq\sigma^2
E(S2)=n1i=1∑n((xi−μ)2)−E((Xˉ−μ)2≤σ2
也就是说当除以的是n的时候,
E
(
S
2
)
≤
σ
2
E(S^2)\leq\sigma^2
E(S2)≤σ2 不符合无偏估计
为了寻找出一个正确的参数,让我们来继续对刚才的式子向下化简:
在上面已经说明
1
n
∑
i
=
1
n
(
(
x
i
−
μ
)
2
\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2
n1i=1∑n((xi−μ)2就是总体方差
σ
2
\sigma^2
σ2
所以设其为 V a r ( X ) Var(X) Var(X)代表的是总体方差,相应的 E ( V a r ( X ) ) = V a r ( X ) E(Var(X))=Var(X) E(Var(X))=Var(X)
对于
E
(
(
X
ˉ
−
μ
)
2
E((\bar{X}-\mu)^2
E((Xˉ−μ)2 来说:
E
(
(
X
ˉ
−
μ
)
2
)
=
1
n
∑
i
=
1
n
(
X
ˉ
−
μ
)
2
=
V
a
r
(
X
ˉ
)
\begin{aligned} &~~~~~E((\bar{X}-\mu)^2) \\&=\frac{1}{n}\sum_{i=1}^{n}(\bar{X}-\mu)^2 \\&=Var(\bar{X}) \end{aligned}
E((Xˉ−μ)2)=n1i=1∑n(Xˉ−μ)2=Var(Xˉ)
因为如果是无偏估计的话,n个
V
a
r
(
X
ˉ
)
Var(\bar{X})
Var(Xˉ)的期望值就是总方差,所以可以看成:
n
×
V
a
r
(
X
ˉ
)
=
V
a
r
(
X
)
n×Var(\bar{X})=Var(X)
n×Var(Xˉ)=Var(X)
根据上方拆分开化简的式子可得:
E
(
1
n
∑
i
=
1
n
(
(
x
i
−
μ
)
2
)
−
E
(
(
X
ˉ
−
μ
)
2
)
=
V
a
r
(
X
)
−
V
a
r
(
X
ˉ
)
=
σ
2
−
1
n
σ
2
=
n
−
1
n
σ
2
\begin{aligned} &~~~~~E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2)-E((\bar{X}-\mu)^2) \\&=Var(X)-Var(\bar{X}) \\&=\sigma^2-\frac{1}{n}\sigma^2 \\&=\frac{n-1}{n}\sigma^2 \end{aligned}
E(n1i=1∑n((xi−μ)2)−E((Xˉ−μ)2)=Var(X)−Var(Xˉ)=σ2−n1σ2=nn−1σ2
突然发现
E
(
S
2
)
=
n
−
1
n
σ
2
E(S_2)=\frac{n-1}{n}\sigma^2
E(S2)=nn−1σ2,如果我们让他乘上一个
n
n
−
1
\frac{n}{n-1}
n−1n,结果就是
σ
2
\sigma^2
σ2了:
E
(
S
2
)
=
n
−
1
n
σ
2
×
n
n
−
1
=
σ
2
E(S_2)=\frac{n-1}{n}\sigma^2×\frac{n}{n-1}=\sigma^2
E(S2)=nn−1σ2×n−1n=σ2
于是根据我们得到的结论,将我们假设的
S
2
S^2
S2的基础上乘上一个
n
n
−
1
变
成
新
的
S
2
\frac{n}{n-1}变成新的S^2
n−1n变成新的S2:
S
2
=
n
n
−
1
(
1
n
∑
i
=
1
n
(
x
i
−
X
ˉ
)
2
)
=
1
n
−
1
∑
i
=
1
n
(
x
i
−
X
ˉ
)
2
S^2=\frac{n}{n-1}(\frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{X})^2)=\frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{X})^2
S2=n−1n(n1i=1∑n(xi−Xˉ)2)=n−11i=1∑n(xi−Xˉ)2
对于新得到的
S
2
S^2
S2进行验证,如下(因为各个步骤的细节上方已经提到了,所以这里我就偷懒喽):
=
E
(
1
n
−
1
∑
i
=
1
n
(
x
i
−
μ
)
2
−
2
n
−
1
×
n
×
1
n
∑
i
=
1
n
(
x
i
−
μ
)
(
X
ˉ
−
μ
)
+
1
n
−
1
×
n
×
1
n
∑
i
=
1
n
(
X
ˉ
−
μ
)
2
)
\begin{aligned} &=E(\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\mu)^2-\frac{2}{n-1}×n×\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)(\bar{X}-\mu)+\frac{1}{n-1}×n×\frac{1}{n}\sum_{i=1}^{n}(\bar{X}-\mu)^2) \end{aligned}
=E(n−11i=1∑n(xi−μ)2−n−12×n×n1i=1∑n(xi−μ)(Xˉ−μ)+n−11×n×n1i=1∑n(Xˉ−μ)2)
由上方验证步骤就可以得出,修正之后的样本方差的期望是总体方差的一个无偏估计,这就是为什么分母为何要除以n-1,而不是n-2,n-3等等