例子:协方差的计算步骤
协方差是用于衡量两个随机变量之间的线性相关性的统计量。它表示两个变量如何一起变化。如果协方差为正,表示两个变量倾向于同方向变化;如果为负,表示它们倾向于反方向变化。
下面我们将通过一个具体的例子,详细说明如何计算协方差。
示例数据
假设我们有两个变量 X X X 和 Y Y Y,它们的观测值如下:
样本编号 | X X X | Y Y Y |
---|---|---|
1 | 2 | 5 |
2 | 4 | 9 |
3 | 6 | 12 |
4 | 8 | 15 |
5 | 10 | 17 |
我们将计算变量 X X X 和 Y Y Y 的协方差。
计算步骤
步骤1:计算 X X X 和 Y Y Y 的均值
首先,计算 X X X 和 Y Y Y 的均值(平均值)。
计算
X
X
X 的均值
X
ˉ
\bar{X}
Xˉ:
X
ˉ
=
1
n
∑
i
=
1
n
X
i
=
2
+
4
+
6
+
8
+
10
5
=
30
5
=
6
\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i = \frac{2 + 4 + 6 + 8 + 10}{5} = \frac{30}{5} = 6
Xˉ=n1i=1∑nXi=52+4+6+8+10=530=6
计算
Y
Y
Y 的均值
Y
ˉ
\bar{Y}
Yˉ:
Y
ˉ
=
1
n
∑
i
=
1
n
Y
i
=
5
+
9
+
12
+
15
+
17
5
=
58
5
=
11.6
\bar{Y} = \frac{1}{n} \sum_{i=1}^{n} Y_i = \frac{5 + 9 + 12 + 15 + 17}{5} = \frac{58}{5} = 11.6
Yˉ=n1i=1∑nYi=55+9+12+15+17=558=11.6
步骤2:计算每个样本的偏差乘积
对于每个样本,计算 ( X i − X ˉ ) ( Y i − Y ˉ ) (X_i - \bar{X})(Y_i - \bar{Y}) (Xi−Xˉ)(Yi−Yˉ)。
样本编号 | X i X_i Xi | Y i Y_i Yi | X i − X ˉ X_i - \bar{X} Xi−Xˉ | Y i − Y ˉ Y_i - \bar{Y} Yi−Yˉ | ( X i − X ˉ ) ( Y i − Y ˉ ) (X_i - \bar{X})(Y_i - \bar{Y}) (Xi−Xˉ)(Yi−Yˉ) |
---|---|---|---|---|---|
1 | 2 | 5 | 2 − 6 = − 4 2 - 6 = -4 2−6=−4 | 5 − 11.6 = − 6.6 5 - 11.6 = -6.6 5−11.6=−6.6 | ( − 4 ) ( − 6.6 ) = 26.4 (-4)(-6.6) = 26.4 (−4)(−6.6)=26.4 |
2 | 4 | 9 | 4 − 6 = − 2 4 - 6 = -2 4−6=−2 | 9 − 11.6 = − 2.6 9 - 11.6 = -2.6 9−11.6=−2.6 | ( − 2 ) ( − 2.6 ) = 5.2 (-2)(-2.6) = 5.2 (−2)(−2.6)=5.2 |
3 | 6 | 12 | 6 − 6 = 0 6 - 6 = 0 6−6=0 | 12 − 11.6 = 0.4 12 - 11.6 = 0.4 12−11.6=0.4 | ( 0 ) ( 0.4 ) = 0 (0)(0.4) = 0 (0)(0.4)=0 |
4 | 8 | 15 | 8 − 6 = 2 8 - 6 = 2 8−6=2 | 15 − 11.6 = 3.4 15 - 11.6 = 3.4 15−11.6=3.4 | ( 2 ) ( 3.4 ) = 6.8 (2)(3.4) = 6.8 (2)(3.4)=6.8 |
5 | 10 | 17 | 10 − 6 = 4 10 - 6 = 4 10−6=4 | 17 − 11.6 = 5.4 17 - 11.6 = 5.4 17−11.6=5.4 | ( 4 ) ( 5.4 ) = 21.6 (4)(5.4) = 21.6 (4)(5.4)=21.6 |
步骤3:求偏差乘积的和
将所有样本的
(
X
i
−
X
ˉ
)
(
Y
i
−
Y
ˉ
)
(X_i - \bar{X})(Y_i - \bar{Y})
(Xi−Xˉ)(Yi−Yˉ) 相加:
∑
i
=
1
n
(
X
i
−
X
ˉ
)
(
Y
i
−
Y
ˉ
)
=
26.4
+
5.2
+
0
+
6.8
+
21.6
=
60
\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y}) = 26.4 + 5.2 + 0 + 6.8 + 21.6 = 60
i=1∑n(Xi−Xˉ)(Yi−Yˉ)=26.4+5.2+0+6.8+21.6=60
步骤4:计算协方差
协方差的公式为:
Cov
(
X
,
Y
)
=
1
n
∑
i
=
1
n
(
X
i
−
X
ˉ
)
(
Y
i
−
Y
ˉ
)
\text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})
Cov(X,Y)=n1i=1∑n(Xi−Xˉ)(Yi−Yˉ)
将上述计算结果代入:
Cov
(
X
,
Y
)
=
1
5
×
60
=
12
\text{Cov}(X, Y) = \frac{1}{5} \times 60 = 12
Cov(X,Y)=51×60=12
因此,变量 X X X 和 Y Y Y 的协方差为 12。
总结
通过以上步骤,我们计算出了 X X X 和 Y Y Y 的协方差为 12,表示 X X X 和 Y Y Y 之间存在正向的线性关系。当 X X X 增大时, Y Y Y 也倾向于增大。
额外说明
-
协方差的符号:
- 正值:表示两个变量倾向于同方向变化。
- 负值:表示两个变量倾向于反方向变化。
- 零或接近零:表示两个变量之间没有线性关系。
-
单位: 协方差的单位是 X X X 和 Y Y Y 单位的乘积,因此不易直接比较大小。
-
标准化协方差(相关系数): 为了消除量纲的影响,可以计算 皮尔逊相关系数,其计算公式为:
r X Y = Cov ( X , Y ) s X s Y r_{XY} = \frac{\text{Cov}(X, Y)}{s_X s_Y} rXY=sXsYCov(X,Y)其中 s X s_X sX 和 s Y s_Y sY 分别是 X X X 和 Y Y Y 的标准差。
计算标准差和相关系数
计算
X
X
X 的标准差
s
X
s_X
sX:
s
X
=
1
n
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
s_X = \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2 }
sX=n1i=1∑n(Xi−Xˉ)2
先计算 ( X i − X ˉ ) 2 (X_i - \bar{X})^2 (Xi−Xˉ)2:
样本编号 | X i − X ˉ X_i - \bar{X} Xi−Xˉ | ( X i − X ˉ ) 2 (X_i - \bar{X})^2 (Xi−Xˉ)2 |
---|---|---|
1 | -4 | 16 |
2 | -2 | 4 |
3 | 0 | 0 |
4 | 2 | 4 |
5 | 4 | 16 |
求和:
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
=
16
+
4
+
0
+
4
+
16
=
40
\sum_{i=1}^{n} (X_i - \bar{X})^2 = 16 + 4 + 0 + 4 + 16 = 40
i=1∑n(Xi−Xˉ)2=16+4+0+4+16=40
计算标准差:
s
X
=
40
5
=
8
≈
2.8284
s_X = \sqrt{ \frac{40}{5} } = \sqrt{8} \approx 2.8284
sX=540=8≈2.8284
计算 Y Y Y 的标准差 s Y s_Y sY:
同样地,计算 ( Y i − Y ˉ ) 2 (Y_i - \bar{Y})^2 (Yi−Yˉ)2:
样本编号 | Y i − Y ˉ Y_i - \bar{Y} Yi−Yˉ | ( Y i − Y ˉ ) 2 (Y_i - \bar{Y})^2 (Yi−Yˉ)2 |
---|---|---|
1 | -6.6 | 43.56 |
2 | -2.6 | 6.76 |
3 | 0.4 | 0.16 |
4 | 3.4 | 11.56 |
5 | 5.4 | 29.16 |
求和:
∑
i
=
1
n
(
Y
i
−
Y
ˉ
)
2
=
43.56
+
6.76
+
0.16
+
11.56
+
29.16
=
91.2
\sum_{i=1}^{n} (Y_i - \bar{Y})^2 = 43.56 + 6.76 + 0.16 + 11.56 + 29.16 = 91.2
i=1∑n(Yi−Yˉ)2=43.56+6.76+0.16+11.56+29.16=91.2
计算标准差:
s
Y
=
91.2
5
=
18.24
≈
4.2720
s_Y = \sqrt{ \frac{91.2}{5} } = \sqrt{18.24} \approx 4.2720
sY=591.2=18.24≈4.2720
计算相关系数
r
X
Y
r_{XY}
rXY:
r
X
Y
=
Cov
(
X
,
Y
)
s
X
s
Y
=
12
2.8284
×
4.2720
=
12
12.092
≈
0.9923
r_{XY} = \frac{\text{Cov}(X, Y)}{s_X s_Y} = \frac{12}{2.8284 \times 4.2720} = \frac{12}{12.092} \approx 0.9923
rXY=sXsYCov(X,Y)=2.8284×4.272012=12.09212≈0.9923
因此, X X X 和 Y Y Y 的相关系数约为 0.9923,表示它们之间存在非常强的正线性关系。
结论
通过这个例子,我们详细地演示了协方差的计算步骤:
- 计算均值:求 X X X 和 Y Y Y 的均值 X ˉ \bar{X} Xˉ 和 Y ˉ \bar{Y} Yˉ。
- 计算偏差乘积:对每个样本计算 ( X i − X ˉ ) ( Y i − Y ˉ ) (X_i - \bar{X})(Y_i - \bar{Y}) (Xi−Xˉ)(Yi−Yˉ)。
- 求和并平均:将所有偏差乘积相加,除以样本数 n n n,得到协方差。
- (可选)计算相关系数:计算标准差,进一步求得相关系数,以量化变量之间的线性关系强度。
希望这个例子能帮助您理解协方差的计算方法。