Bootstrap

样本方差公式为什么除以的是n-1

本文是依照《彻底理解样本方差为何除以n-1》一文进行学习而做的学习笔记,是在学习前面一文的基础上,对某些步骤添加了一些自己的理解,如果有什么不对的地方还请各位道友多多指正哈!当然以后要是突然明白真正的道理的话还是会继续改正的~~下面进入正文


这位篇文章的博主其他文章也很好,需要的小伙伴要留意一下喔


*想到这个问题的来源:

在降维算法中,PCA使用的信息量衡量指标,就是样本方差,其公式如下
V a r = 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 Var=\frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{X})^2 Var=n11i=1n(xiXˉ)2

哎?突然发现,样本量不是n吗,为什么前面要除以一个n-1,按照正常来说不是除以n的吗

解释使用n-1的目的

其实,除以n-1就是为了得到样本方差的无偏估计,那么问题随之而来,什么是样本方差的无偏估计,凭什么就说除以n-1就可以,为什么不能除以n-2呢,带着这个问题,在下面就开始展开了和蔼可亲的长篇的验证


*对上方种种疑问的解决过程(证明为什么要使用n-1)

首先说明各个变量公式:

  • X ˉ \bar{X} Xˉ : 样本的均值
  • S 2 S^2 S2 : 样本方差
  • μ \mu μ : 总体均值
  • σ 2 \sigma^2 σ2 : 总体方差

样本方差 S 2 S^2 S2的公式:
S 2 = 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 S^2=\frac{1}{n-1} \sum_{i=1}^{n} (x_i-\bar{X})^2 S2=n11i=1n(xiXˉ)2

由上方提到过,n-1的目的是得到样本方差的无偏估计,那么什么是无偏估计

无偏估计(借用上方链接的例子来理解):

假如你想知道一所大学里学生的平均身高是多少,一个大学好几万人,全部统计有点不现实,但是你可以先随机挑选100个人,统计他们的身高,然后计算出他们的平均值,记为 X 1 ˉ \bar{X_1} X1ˉ。如果你只是把 X 1 ˉ \bar{X_1} X1ˉ作为整体的身高平均值,误差肯定很大,因为你再随机挑选出100个人,身高平均值很可能就跟刚才计算的不同,为了使得统计结果更加精确,你需要多抽取几次,然后分别计算出他们的平均值,分别记为: X 1 ˉ \bar{X_1} X1ˉ X 2 ˉ \bar{X_2} X2ˉ … \ldots X k ˉ \bar{X_k} Xkˉ 然后在把这些平均值,再做平均,记为: E ( X ˉ ) E(\bar{X}) E(Xˉ),这样的结果肯定比只计算一次更加精确,随着重复抽取的次数增多,这个期望值会越来越接近总体均值 μ \mu μ,如果满足 E ( X ˉ ) = μ E(\bar{X})=\mu E(Xˉ)=μ,这就是一个无偏估计,其中统计的样本均值也是一个随机变量, X i ˉ \bar{X_i} Xiˉ就是 X ˉ \bar{X} Xˉ的一个取值

无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。

我们计算的样本方差,希望它是总体方差的一个无偏估计,那么假如我们的样本方差是如下形式
S 2 = 1 n ∑ i = 1 n ( x i − X ˉ ) 2 S^2=\frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{X})^2 S2=n1i=1n(xiXˉ)2

根据无偏估计的定义可得:
E ( S 2 ) = E ( 1 n ∑ i = 1 n ( x i − X ˉ ) 2 ) = E ( 1 n ∑ i = 1 n ( ( x i − μ ) − ( X ˉ − μ ) ) 2 )           对 x i 和 X ˉ 同 时 减 去 μ = E ( 1 n ∑ i = 1 n ( ( x i − μ ) 2 − 2 ( x i − μ ) ( X ˉ − μ ) + ( X ˉ − μ ) 2 )    打 开 平 方 = E ( 1 n ∑ i = 1 n ( ( x i − μ ) 2 − 1 n ∑ i = 1 n 2 ( x i − μ ) ( X ˉ − μ ) + 1 n ∑ i = 1 n ( X ˉ − μ ) 2 ) \begin{aligned} E(S^2)&=E(\frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{X})^2) \\ &=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)-(\bar{X}-\mu))^2) ~~~~~~~~~对x_i和\bar{X}同时减去\mu \\ &=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2-2(x_i-\mu)(\bar{X}-\mu)+(\bar{X}-\mu)^2) ~~打开平方 \\ &=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2-\frac{1}{n} \sum_{i=1}^{n} 2(x_i-\mu)(\bar{X}-\mu)+\frac{1}{n} \sum_{i=1}^{n}(\bar{X}-\mu)^2) \end{aligned} E(S2)=E(n1i=1n(xiXˉ)2)=E(n1i=1n((xiμ)(Xˉμ))2)         xiXˉμ=E(n1i=1n((xiμ)22(xiμ)(Xˉμ)+(Xˉμ)2)  =E(n1i=1n((xiμ)2n1i=1n2(xiμ)(Xˉμ)+n1i=1n(Xˉμ)2)
对于均值的公式:

  • E ( X ) = 1 n ∑ i = 1 n x i E(X)=\frac{1}{n}\sum_{i=1}^{n}x_i E(X)=n1i=1nxi
  • E ( C ) = C E(C)=C E(C)=C 常数的均值还是常数本身
  • E ( C X ) = C E ( X ) E(CX)=CE(X) E(CX)=CE(X)
  • 由于 1 n ∑ i = 1 n x i = X ˉ \frac{1}{n} \sum_{i=1}^{n}x_i=\bar{X} n1i=1nxi=Xˉ
  • 1 n ∑ i = 1 n ( x i − μ ) = 1 n ∑ i = 1 n x i − μ = X ˉ − μ \frac{1}{n} \sum_{i=1}^{n}(x_i-\mu)=\frac{1}{n} \sum_{i=1}^{n}x_i-\mu=\bar{X}-\mu n1i=1n(xiμ)=n1i=1nxiμ=Xˉμ

对于:
      1 n ∑ i = 1 n 2 ( x i − μ ) ( X ˉ − μ )        对 于 X ˉ 和 μ 在 这 里 都 是 常 数 , 所 以 相 减 也 为 常 数 = 2 ( X ˉ − μ ) ∗ 1 n ∑ i = 1 n ( x i − μ ) = 2 ( X ˉ − μ ) ( X ˉ − μ )        使 用 上 面 均 值 公 式 里 面 的 第 三 第 四 点 , 对 上 式 进 行 化 简 = 2 ( X ˉ − μ ) 2 \begin{aligned} &~~~~~\frac{1}{n} \sum_{i=1}^{n} 2(x_i-\mu)(\bar{X}-\mu)~~~~~~对于\bar{X}和\mu在这里都是常数,所以相减也为常数 \\&=2(\bar{X}-\mu)*\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu) \\&=2(\bar{X}-\mu)(\bar{X}-\mu) ~~~~~~使用上面均值公式里面的第三第四点,对上式进行化简 \\&=2(\bar{X}-\mu)^2 \end{aligned}      n1i=1n2(xiμ)(Xˉμ)      Xˉμ=2(Xˉμ)n1i=1n(xiμ)=2(Xˉμ)(Xˉμ)      使=2(Xˉμ)2

       1 n ∑ i = 1 n ( X ˉ − μ ) 2 = ( X ˉ − μ ) 2         对 于 X ˉ 和 μ 在 这 里 都 是 常 数 , 所 以 相 减 也 为 常 数                             \begin{aligned} &~~~~~~\frac{1}{n} \sum_{i=1}^{n}(\bar{X}-\mu)^2 \\&=(\bar{X}-\mu)^2~~~~~~~对于\bar{X}和\mu在这里都是常数,所以相减也为常数~~~~~~~~~~~~~~~~~~~~~~~~~~~ \end{aligned}       n1i=1n(Xˉμ)2=(Xˉμ)2       Xˉμ                           

对上方 E ( S 2 ) E(S^2) E(S2)继续计算:
E ( S 2 ) = E ( 1 n ∑ i = 1 n ( ( x i − μ ) 2 − 1 n ∑ i = 1 n 2 ( x i − μ ) ( X ˉ − μ ) + 1 n ∑ i = 1 n ( X ˉ − μ ) 2 ) = E ( 1 n ∑ i = 1 n ( ( x i − μ ) 2 − 2 ( X ˉ − μ ) 2 + ( X ˉ − μ ) 2 )      由 上 面 拆 分 出 去 化 简 的 式 子 可 得 = E ( 1 n ∑ i = 1 n ( ( x i − μ ) 2 − ( X ˉ − μ ) 2 ) = E ( 1 n ∑ i = 1 n ( ( x i − μ ) 2 ) − E ( ( X ˉ − μ ) 2 ) \begin{aligned} E(S^2)&=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2-\frac{1}{n} \sum_{i=1}^{n} 2(x_i-\mu)(\bar{X}-\mu)+\frac{1}{n} \sum_{i=1}^{n}(\bar{X}-\mu)^2) \\ &= E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2-2(\bar{X}-\mu)^2+(\bar{X}-\mu)^2)~~~~由上面拆分出去化简的式子可得 \\&=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2-(\bar{X}-\mu)^2) \\&=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2)-E((\bar{X}-\mu)^2) \end{aligned} E(S2)=E(n1i=1n((xiμ)2n1i=1n2(xiμ)(Xˉμ)+n1i=1n(Xˉμ)2)=E(n1i=1n((xiμ)22(Xˉμ)2+(Xˉμ)2)    =E(n1i=1n((xiμ)2(Xˉμ)2)=E(n1i=1n((xiμ)2)E((Xˉμ)2)

突然发现 μ \mu μ是总体均值,那么
1 n ∑ i = 1 n ( ( x i − μ ) 2 \frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2 n1i=1n((xiμ)2就是总体方差 σ 2 \sigma^2 σ2,总体方差是根据总体数据求出来的(我理解的解释是只有一个总体方差),所以对其取均值还是本身:
1 n ∑ i = 1 n ( ( x i − μ ) 2 = E ( 1 n ∑ i = 1 n ( ( x i − μ ) 2 ) = σ 2 \frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2)=\sigma^2 n1i=1n((xiμ)2=E(n1i=1n((xiμ)2)=σ2
可以观察出
E ( S 2 ) = 1 n ∑ i = 1 n ( ( x i − μ ) 2 ) − E ( ( X ˉ − μ ) 2 ≤ σ 2 E(S^2)=\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2)-E((\bar{X}-\mu)^2\leq\sigma^2 E(S2)=n1i=1n((xiμ)2)E((Xˉμ)2σ2
也就是说当除以的是n的时候, E ( S 2 ) ≤ σ 2 E(S^2)\leq\sigma^2 E(S2)σ2 不符合无偏估计

为了寻找出一个正确的参数,让我们来继续对刚才的式子向下化简:

在上面已经说明
1 n ∑ i = 1 n ( ( x i − μ ) 2 \frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2 n1i=1n((xiμ)2就是总体方差 σ 2 \sigma^2 σ2

所以设其为 V a r ( X ) Var(X) Var(X)代表的是总体方差,相应的 E ( V a r ( X ) ) = V a r ( X ) E(Var(X))=Var(X) E(Var(X))=Var(X)

对于 E ( ( X ˉ − μ ) 2 E((\bar{X}-\mu)^2 E((Xˉμ)2 来说:
      E ( ( X ˉ − μ ) 2 ) = 1 n ∑ i = 1 n ( X ˉ − μ ) 2 = V a r ( X ˉ ) \begin{aligned} &~~~~~E((\bar{X}-\mu)^2) \\&=\frac{1}{n}\sum_{i=1}^{n}(\bar{X}-\mu)^2 \\&=Var(\bar{X}) \end{aligned}      E((Xˉμ)2)=n1i=1n(Xˉμ)2=Var(Xˉ)

因为如果是无偏估计的话,n个 V a r ( X ˉ ) Var(\bar{X}) Var(Xˉ)的期望值就是总方差,所以可以看成:
n × V a r ( X ˉ ) = V a r ( X ) n×Var(\bar{X})=Var(X) n×Var(Xˉ)=Var(X)

根据上方拆分开化简的式子可得:
      E ( 1 n ∑ i = 1 n ( ( x i − μ ) 2 ) − E ( ( X ˉ − μ ) 2 ) = V a r ( X ) − V a r ( X ˉ ) = σ 2 − 1 n σ 2 = n − 1 n σ 2 \begin{aligned} &~~~~~E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2)-E((\bar{X}-\mu)^2) \\&=Var(X)-Var(\bar{X}) \\&=\sigma^2-\frac{1}{n}\sigma^2 \\&=\frac{n-1}{n}\sigma^2 \end{aligned}      E(n1i=1n((xiμ)2)E((Xˉμ)2)=Var(X)Var(Xˉ)=σ2n1σ2=nn1σ2

突然发现 E ( S 2 ) = n − 1 n σ 2 E(S_2)=\frac{n-1}{n}\sigma^2 E(S2)=nn1σ2,如果我们让他乘上一个 n n − 1 \frac{n}{n-1} n1n,结果就是 σ 2 \sigma^2 σ2了:
E ( S 2 ) = n − 1 n σ 2 × n n − 1 = σ 2 E(S_2)=\frac{n-1}{n}\sigma^2×\frac{n}{n-1}=\sigma^2 E(S2)=nn1σ2×n1n=σ2

于是根据我们得到的结论,将我们假设的 S 2 S^2 S2的基础上乘上一个 n n − 1 变 成 新 的 S 2 \frac{n}{n-1}变成新的S^2 n1nS2:
S 2 = n n − 1 ( 1 n ∑ i = 1 n ( x i − X ˉ ) 2 ) = 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 S^2=\frac{n}{n-1}(\frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{X})^2)=\frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{X})^2 S2=n1n(n1i=1n(xiXˉ)2)=n11i=1n(xiXˉ)2

对于新得到的 S 2 S^2 S2进行验证,如下(因为各个步骤的细节上方已经提到了,所以这里我就偷懒喽):
在这里插入图片描述

= E ( 1 n − 1 ∑ i = 1 n ( x i − μ ) 2 − 2 n − 1 × n × 1 n ∑ i = 1 n ( x i − μ ) ( X ˉ − μ ) + 1 n − 1 × n × 1 n ∑ i = 1 n ( X ˉ − μ ) 2 ) \begin{aligned} &=E(\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\mu)^2-\frac{2}{n-1}×n×\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)(\bar{X}-\mu)+\frac{1}{n-1}×n×\frac{1}{n}\sum_{i=1}^{n}(\bar{X}-\mu)^2) \end{aligned} =E(n11i=1n(xiμ)2n12×n×n1i=1n(xiμ)(Xˉμ)+n11×n×n1i=1n(Xˉμ)2)
在这里插入图片描述
由上方验证步骤就可以得出,修正之后的样本方差的期望是总体方差的一个无偏估计,这就是为什么分母为何要除以n-1,而不是n-2,n-3等等


如果有看到这里的小伙伴,觉得哪里有问题的话,还请多多指点哈~

;