Bootstrap

举例说明协方差的数学公式计算步骤以及皮尔逊相关系数数学公式的计算步骤

例子:协方差的计算步骤

协方差是用于衡量两个随机变量之间的线性相关性的统计量。它表示两个变量如何一起变化。如果协方差为正,表示两个变量倾向于同方向变化;如果为负,表示它们倾向于反方向变化。

下面我们将通过一个具体的例子,详细说明如何计算协方差。

示例数据

假设我们有两个变量 X X X Y Y Y,它们的观测值如下:

样本编号 X X X Y Y Y
125
249
3612
4815
51017

我们将计算变量 X X X Y Y Y 的协方差。

计算步骤

步骤1:计算 X X X Y Y Y 的均值

首先,计算 X X X Y Y Y 的均值(平均值)。

计算 X X X 的均值 X ˉ \bar{X} Xˉ
X ˉ = 1 n ∑ i = 1 n X i = 2 + 4 + 6 + 8 + 10 5 = 30 5 = 6 \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i = \frac{2 + 4 + 6 + 8 + 10}{5} = \frac{30}{5} = 6 Xˉ=n1i=1nXi=52+4+6+8+10=530=6

计算 Y Y Y 的均值 Y ˉ \bar{Y} Yˉ
Y ˉ = 1 n ∑ i = 1 n Y i = 5 + 9 + 12 + 15 + 17 5 = 58 5 = 11.6 \bar{Y} = \frac{1}{n} \sum_{i=1}^{n} Y_i = \frac{5 + 9 + 12 + 15 + 17}{5} = \frac{58}{5} = 11.6 Yˉ=n1i=1nYi=55+9+12+15+17=558=11.6

步骤2:计算每个样本的偏差乘积

对于每个样本,计算 ( X i − X ˉ ) ( Y i − Y ˉ ) (X_i - \bar{X})(Y_i - \bar{Y}) (XiXˉ)(YiYˉ)

样本编号 X i X_i Xi Y i Y_i Yi X i − X ˉ X_i - \bar{X} XiXˉ Y i − Y ˉ Y_i - \bar{Y} YiYˉ ( X i − X ˉ ) ( Y i − Y ˉ ) (X_i - \bar{X})(Y_i - \bar{Y}) (XiXˉ)(YiYˉ)
125 2 − 6 = − 4 2 - 6 = -4 26=4 5 − 11.6 = − 6.6 5 - 11.6 = -6.6 511.6=6.6 ( − 4 ) ( − 6.6 ) = 26.4 (-4)(-6.6) = 26.4 (4)(6.6)=26.4
249 4 − 6 = − 2 4 - 6 = -2 46=2 9 − 11.6 = − 2.6 9 - 11.6 = -2.6 911.6=2.6 ( − 2 ) ( − 2.6 ) = 5.2 (-2)(-2.6) = 5.2 (2)(2.6)=5.2
3612 6 − 6 = 0 6 - 6 = 0 66=0 12 − 11.6 = 0.4 12 - 11.6 = 0.4 1211.6=0.4 ( 0 ) ( 0.4 ) = 0 (0)(0.4) = 0 (0)(0.4)=0
4815 8 − 6 = 2 8 - 6 = 2 86=2 15 − 11.6 = 3.4 15 - 11.6 = 3.4 1511.6=3.4 ( 2 ) ( 3.4 ) = 6.8 (2)(3.4) = 6.8 (2)(3.4)=6.8
51017 10 − 6 = 4 10 - 6 = 4 106=4 17 − 11.6 = 5.4 17 - 11.6 = 5.4 1711.6=5.4 ( 4 ) ( 5.4 ) = 21.6 (4)(5.4) = 21.6 (4)(5.4)=21.6

步骤3:求偏差乘积的和

将所有样本的 ( X i − X ˉ ) ( Y i − Y ˉ ) (X_i - \bar{X})(Y_i - \bar{Y}) (XiXˉ)(YiYˉ) 相加:
∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) = 26.4 + 5.2 + 0 + 6.8 + 21.6 = 60 \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y}) = 26.4 + 5.2 + 0 + 6.8 + 21.6 = 60 i=1n(XiXˉ)(YiYˉ)=26.4+5.2+0+6.8+21.6=60

步骤4:计算协方差

协方差的公式为:
Cov ( X , Y ) = 1 n ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) \text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y}) Cov(X,Y)=n1i=1n(XiXˉ)(YiYˉ)

将上述计算结果代入:
Cov ( X , Y ) = 1 5 × 60 = 12 \text{Cov}(X, Y) = \frac{1}{5} \times 60 = 12 Cov(X,Y)=51×60=12

因此,变量 X X X Y Y Y 的协方差为 12

总结

通过以上步骤,我们计算出了 X X X Y Y Y 的协方差为 12,表示 X X X Y Y Y 之间存在正向的线性关系。当 X X X 增大时, Y Y Y 也倾向于增大。

额外说明

  • 协方差的符号:

    • 正值:表示两个变量倾向于同方向变化。
    • 负值:表示两个变量倾向于反方向变化。
    • 零或接近零:表示两个变量之间没有线性关系。
  • 单位: 协方差的单位是 X X X Y Y Y 单位的乘积,因此不易直接比较大小。

  • 标准化协方差(相关系数): 为了消除量纲的影响,可以计算 皮尔逊相关系数,其计算公式为:
    r X Y = Cov ( X , Y ) s X s Y r_{XY} = \frac{\text{Cov}(X, Y)}{s_X s_Y} rXY=sXsYCov(X,Y)

    其中 s X s_X sX s Y s_Y sY 分别是 X X X Y Y Y 的标准差。

计算标准差和相关系数

计算 X X X 的标准差 s X s_X sX
s X = 1 n ∑ i = 1 n ( X i − X ˉ ) 2 s_X = \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2 } sX=n1i=1n(XiXˉ)2

先计算 ( X i − X ˉ ) 2 (X_i - \bar{X})^2 (XiXˉ)2

样本编号 X i − X ˉ X_i - \bar{X} XiXˉ ( X i − X ˉ ) 2 (X_i - \bar{X})^2 (XiXˉ)2
1-416
2-24
300
424
5416

求和:
∑ i = 1 n ( X i − X ˉ ) 2 = 16 + 4 + 0 + 4 + 16 = 40 \sum_{i=1}^{n} (X_i - \bar{X})^2 = 16 + 4 + 0 + 4 + 16 = 40 i=1n(XiXˉ)2=16+4+0+4+16=40

计算标准差:
s X = 40 5 = 8 ≈ 2.8284 s_X = \sqrt{ \frac{40}{5} } = \sqrt{8} \approx 2.8284 sX=540 =8 2.8284

计算 Y Y Y 的标准差 s Y s_Y sY

同样地,计算 ( Y i − Y ˉ ) 2 (Y_i - \bar{Y})^2 (YiYˉ)2

样本编号 Y i − Y ˉ Y_i - \bar{Y} YiYˉ ( Y i − Y ˉ ) 2 (Y_i - \bar{Y})^2 (YiYˉ)2
1-6.643.56
2-2.66.76
30.40.16
43.411.56
55.429.16

求和:
∑ i = 1 n ( Y i − Y ˉ ) 2 = 43.56 + 6.76 + 0.16 + 11.56 + 29.16 = 91.2 \sum_{i=1}^{n} (Y_i - \bar{Y})^2 = 43.56 + 6.76 + 0.16 + 11.56 + 29.16 = 91.2 i=1n(YiYˉ)2=43.56+6.76+0.16+11.56+29.16=91.2

计算标准差:
s Y = 91.2 5 = 18.24 ≈ 4.2720 s_Y = \sqrt{ \frac{91.2}{5} } = \sqrt{18.24} \approx 4.2720 sY=591.2 =18.24 4.2720

计算相关系数 r X Y r_{XY} rXY
r X Y = Cov ( X , Y ) s X s Y = 12 2.8284 × 4.2720 = 12 12.092 ≈ 0.9923 r_{XY} = \frac{\text{Cov}(X, Y)}{s_X s_Y} = \frac{12}{2.8284 \times 4.2720} = \frac{12}{12.092} \approx 0.9923 rXY=sXsYCov(X,Y)=2.8284×4.272012=12.092120.9923

因此, X X X Y Y Y 的相关系数约为 0.9923,表示它们之间存在非常强的正线性关系。

结论

通过这个例子,我们详细地演示了协方差的计算步骤:

  1. 计算均值:求 X X X Y Y Y 的均值 X ˉ \bar{X} Xˉ Y ˉ \bar{Y} Yˉ
  2. 计算偏差乘积:对每个样本计算 ( X i − X ˉ ) ( Y i − Y ˉ ) (X_i - \bar{X})(Y_i - \bar{Y}) (XiXˉ)(YiYˉ)
  3. 求和并平均:将所有偏差乘积相加,除以样本数 n n n,得到协方差。
  4. (可选)计算相关系数:计算标准差,进一步求得相关系数,以量化变量之间的线性关系强度。

希望这个例子能帮助您理解协方差的计算方法。

;