chi square-卡方分布的定义及性质
摘要
本文将介绍卡方分布的定义及相关性质,以及卡方分布与正态分布的关系。
χ 2 \chi^2 χ2分布 (卡方分布) 的定义
g a m m a gamma gamma 分布
首先, χ 2 \chi^2 χ2分布是一种特殊的 g a m m a gamma gamma 分布。所以在看卡方分布的定义及性质之前,我们先来看 Gamma 分布的定义。
g
a
m
m
a
gamma
gamma 分布由两个参数
α
\alpha
α 和
β
\beta
β 决定。
g
a
m
m
a
(
α
,
β
)
gamma(\alpha, \, \beta)
gamma(α,β) 的概率密度函数 (pdf) 为:
f
(
x
∣
α
,
β
)
=
1
Γ
(
α
)
β
α
x
α
−
1
e
−
x
/
β
,
0
<
x
<
∞
,
α
>
0
,
β
>
0
(1)
\displaystyle f(x|\alpha, \beta) = \dfrac{1}{\Gamma(\alpha) \beta^\alpha} x^{\alpha - 1} e^{-x/\beta},\, 0 < x < \infty, \alpha > 0, \beta > 0 \tag{1}
f(x∣α,β)=Γ(α)βα1xα−1e−x/β,0<x<∞,α>0,β>0(1)
其中
Γ
(
x
)
\Gamma(x)
Γ(x) 是 gamma 函数,
Γ
(
α
)
=
∫
0
∞
t
α
−
1
e
−
t
d
t
\displaystyle \Gamma(\alpha) = \int_{0}^{\infty} t^{\alpha - 1} e^{-t} dt
Γ(α)=∫0∞tα−1e−tdt。
在 g a m m a ( α , β ) gamma(\alpha, \, \beta) gamma(α,β) 分布中,如果我们令 α = p / 2 , β = 2 \alpha = p / 2, \, \beta = 2 α=p/2,β=2,那么我们就得到了自由度为 p p p 的 χ 2 \chi^2 χ2 分布,记为 χ p 2 \chi^2_p χp2 分布。
g a m m a gamma gamma 分布的期望、方差及距生成函数
在看卡方分布的性质之前,我们先看一下 g a m m a gamma gamma 分布的性质。
假设
X
∼
g
a
m
m
a
(
α
,
β
)
X \sim gamma(\alpha, \, \beta)
X∼gamma(α,β),那么我们有
E
(
X
)
=
α
β
,
Var
(
X
)
=
α
β
2
\mathbb{E}(X) = \alpha \beta, \text{Var}(X) = \alpha \beta^2
E(X)=αβ,Var(X)=αβ2
证明过程可参见 [1]。我们在附录中给出
Var
(
X
)
=
α
β
2
\text{Var}(X) = \alpha \beta^2
Var(X)=αβ2 的证明。
g
a
m
m
a
gamma
gamma 分布的距生成函数 (moment-generating function, mgf) 为
M
X
(
t
)
=
E
(
e
t
x
)
=
(
1
1
−
β
t
)
α
,
t
<
1
β
\displaystyle M_X(t) = \mathbb{E}(e^{tx}) = \Big ( \dfrac{1}{1 - \beta t} \Big) ^{\alpha}, t < \dfrac{1}{\beta}
MX(t)=E(etx)=(1−βt1)α,t<β1。
其证明过程可参见 Casella Example 2.3.8。
另外,根据 Casella Theorem 4.6.7,我们知道如果
X
1
∼
g
a
m
m
a
(
α
1
,
β
)
,
X
1
∼
g
a
m
m
a
(
α
2
,
β
)
,
⋯
,
X
n
∼
g
a
m
m
a
(
α
n
,
β
)
X_1 \sim gamma(\alpha_1, \beta), \, X_1 \sim gamma(\alpha_2, \beta), \cdots, X_n \sim gamma(\alpha_n, \beta)
X1∼gamma(α1,β),X1∼gamma(α2,β),⋯,Xn∼gamma(αn,β),
且
X
i
X_i
Xi 是独立的,那么
X
1
+
X
2
+
⋯
X
n
∼
g
a
m
m
a
(
α
1
+
α
2
+
⋯
+
α
n
,
β
)
X_1 + X_2 + \cdots X_n \sim gamma(\alpha_1 + \alpha_2 + \cdots + \alpha_n, \beta)
X1+X2+⋯Xn∼gamma(α1+α2+⋯+αn,β)
即
n
n
n 个独立的有相同
β
\beta
β 参数的
g
a
m
m
a
gamma
gamma 分布的和仍然是一个
g
a
m
m
a
gamma
gamma 分布。
χ 2 \chi^2 χ2分布的 pdf
把
α
=
p
/
2
,
β
=
2
\alpha = p / 2, \, \beta = 2
α=p/2,β=2 代入
g
a
m
m
a
(
α
,
β
)
gamma(\alpha, \, \beta)
gamma(α,β) 的 pdf,我们有
f
(
x
∣
p
)
=
1
Γ
(
p
/
2
)
2
p
/
2
x
p
2
−
1
e
−
x
/
2
,
0
<
x
<
∞
(2)
f(x \vert p) = \frac{1}{\Gamma(p / 2) 2^{p / 2}} x^{\frac{p}{2} - 1} e^{-x / 2}, \, \, \, \, 0 < x < \infty \tag{2}
f(x∣p)=Γ(p/2)2p/21x2p−1e−x/2,0<x<∞(2)
这便是
χ
p
2
\chi^2_p
χp2 分布的概率密度函数。
χ 2 \chi^2 χ2分布的性质
由于
χ
p
2
\chi^2_p
χp2 分布是
α
=
p
/
2
\alpha = p / 2
α=p/2,
β
=
2
\beta = 2
β=2 的
g
a
m
m
a
gamma
gamma 分布,故我们可以直接套用
g
a
m
m
a
gamma
gamma 分布的期望与方差公式。
E
χ
p
2
(
X
)
=
p
,
Var
χ
p
2
(
X
)
=
2
p
\mathbb{E}_{\chi^2_p}(X) = p, \text{Var}_{\chi^2_p}(X) = 2p
Eχp2(X)=p,Varχp2(X)=2p
另外,根据独立
g
a
m
m
a
gamma
gamma 分布的相加性的性质,我们有对于独立的
χ
p
2
\chi^2_p
χp2 分布
X
i
∼
χ
p
i
2
X_i \sim \chi^2_{p_i}
Xi∼χpi2,那么
∑
X
i
∼
χ
∑
p
i
2
\displaystyle \sum X_i \sim \chi^2_{\sum p_i}
∑Xi∼χ∑pi2。
即
n
n
n 个独立的
χ
2
\chi^2
χ2 分布的和仍然是一个
χ
2
\chi^2
χ2 分布,加和分布的自由度等于所有自由度的和。
χ 2 \chi^2 χ2分布与正态分布的关系
χ 2 \chi^2 χ2分布与正态分布有什么关系呢?
首先,如果 Z ∼ N ( 0 , 1 ) Z \sim N(0, 1) Z∼N(0,1),即 Z Z Z 服从标准正态分布,那么 Z 2 ∼ χ 1 2 Z^2 \sim \chi^2_1 Z2∼χ12。即标准正态分布的平方服从自由度为 1 的卡方分布。证明过程比较直接,参见附录。
另外,我们有如下定理。
如果有 n n n 个独立同分布的正态分布 X i ∼ N ( μ , σ 2 ) , i = 1 , 2 , ⋯ , n X_i \sim N(\mu, \, \sigma^2), i = 1, \, 2, \, \cdots, n Xi∼N(μ,σ2),i=1,2,⋯,n。样本方差为 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 \displaystyle S^2 =\dfrac{1}{n - 1} \sum_{i = 1}^n (X_i - \bar{X})^2 S2=n−11i=1∑n(Xi−Xˉ)2。那么 ( n − 1 ) S 2 / σ 2 \displaystyle (n - 1)S^2/\sigma^2 (n−1)S2/σ2 服从自由度为 n − 1 n - 1 n−1 的 χ 2 \chi^2 χ2分布。
这个结论的证明可见 Casella Theorem 5.3.1。
scipy 中的函数
scipy
中 chi2
可以用来产生
χ
2
\chi^2
χ2分布的各种相关函数。
pdf(x, df, loc=0, scale=1)
是自由度为 df 的 χ 2 \chi^2 χ2分布的 pdf;rvs(df, loc=0, scale=1, size=1, random_state=None)
可以生成 size 个服从自由度为 df 的 χ 2 \chi^2 χ2分布的随机数;cdf(x, df, loc=0, scale=1)
是自由度为 df 的 χ 2 \chi^2 χ2分布的 cdf;ppf(q, df, loc=0, scale=1)
是自由度为 df 的 χ 2 \chi^2 χ2分布的分位数。
附录
g a m m a gamma gamma 分布的方差公式。
假设 X ∼ g a m m a ( α , β ) X \sim gamma(\alpha, \, \beta) X∼gamma(α,β)。这里我们假设已经证明了 E ( X ) = α β \mathbb{E} (X) = \alpha \beta E(X)=αβ。我们计算 E ( X 2 ) \mathbb{E} (X^2) E(X2)。
E
(
X
2
)
=
∫
0
∞
x
2
1
Γ
(
α
)
β
α
x
α
−
1
e
−
x
/
β
d
x
=
1
Γ
(
α
)
β
α
∫
0
∞
x
α
+
1
e
−
x
/
β
d
x
\begin{aligned} \mathbb{E}(X^2) &= \int_0^{\infty} x^2 \dfrac{1}{\Gamma(\alpha) \beta^\alpha} x^{\alpha - 1} e^{-x/\beta} dx \\ &= \dfrac{1}{\Gamma(\alpha) \beta^\alpha} \int_0^{\infty} x^{\alpha + 1} e^{-x/\beta} dx \end{aligned}
E(X2)=∫0∞x2Γ(α)βα1xα−1e−x/βdx=Γ(α)βα1∫0∞xα+1e−x/βdx
因为我们知道
∫
0
∞
x
α
−
1
e
−
x
/
β
d
x
=
Γ
(
α
)
β
α
\displaystyle \int_0^{\infty} x^{\alpha - 1} e^{-x/\beta} dx = \Gamma(\alpha) \beta^\alpha
∫0∞xα−1e−x/βdx=Γ(α)βα (根据 pdf 积分为1 可知),所以我们有
∫
0
∞
x
α
+
1
e
−
x
/
β
d
x
=
Γ
(
α
+
2
)
β
α
+
2
=
(
α
+
1
)
Γ
(
α
+
1
)
β
α
+
2
=
α
(
α
+
1
)
Γ
(
α
)
β
α
+
2
\displaystyle \int_0^{\infty} x^{\alpha + 1} e^{-x/\beta} dx= \Gamma(\alpha + 2) \beta^{\alpha + 2} = (\alpha + 1) \Gamma(\alpha + 1) \beta^{\alpha + 2} =\alpha (\alpha + 1) \Gamma(\alpha) \beta^{\alpha + 2}
∫0∞xα+1e−x/βdx=Γ(α+2)βα+2=(α+1)Γ(α+1)βα+2=α(α+1)Γ(α)βα+2。故
E
(
X
2
)
=
α
(
α
+
1
)
β
2
\mathbb{E} (X^2) = \alpha (\alpha + 1) \beta^2
E(X2)=α(α+1)β2。
于是,
Var
(
X
)
=
E
(
X
2
)
−
(
E
(
X
)
)
2
=
α
(
α
+
1
)
β
2
−
(
α
β
)
2
=
α
β
2
\begin{aligned} \text{Var}(X) &= \mathbb{E} (X^2) - (\mathbb{E} (X))^2 \\ &= \alpha (\alpha + 1) \beta^2 - ( \alpha \beta)^2 \\ &=\alpha \beta^2 \end{aligned}
Var(X)=E(X2)−(E(X))2=α(α+1)β2−(αβ)2=αβ2。
标准正态分布的平方
假设 X ∼ N ( 0 , 1 ) X \sim N(0, 1) X∼N(0,1), Y = X 2 Y = X^2 Y=X2。我们要求出 Y Y Y 的分布。我们计算 F ( k ) = P ( Y ≤ k ) , k > 0 F(k) = P(Y \leq k), k > 0 F(k)=P(Y≤k),k>0。求出累积分布函数 F ( k ) F(k) F(k) 之后,我们可以对 F ( k ) F(k) F(k) 求导,来求出 Y Y Y 的概率密度函数。
F
(
k
)
=
P
(
Y
≤
k
)
=
P
(
−
k
≤
X
≤
k
)
=
∫
−
k
k
1
2
π
e
−
x
2
/
2
d
x
=
∫
−
∞
k
1
2
π
e
−
x
2
/
2
d
x
−
∫
−
∞
−
k
1
2
π
e
−
x
2
/
2
d
x
\begin{aligned} F(k) = P(Y \leq k) &= P(-\sqrt{k} \leq X \leq \sqrt{k}) \\ &= \int_{-\sqrt{k}}^{\sqrt{k}} \frac{1}{\sqrt{2 \pi}} e^{-x^2 / 2} dx \\ &= \int_{-\infty}^{\sqrt{k}} \frac{1}{\sqrt{2 \pi}} e^{-x^2 / 2} dx - \int_{-\infty}^{-\sqrt{k}} \frac{1}{\sqrt{2 \pi}} e^{-x^2 / 2} dx \end{aligned}
F(k)=P(Y≤k)=P(−k≤X≤k)=∫−kk2π1e−x2/2dx=∫−∞k2π1e−x2/2dx−∫−∞−k2π1e−x2/2dx
对
F
(
k
)
F(k)
F(k) 求导,我们有
d
d
k
F
(
k
)
=
1
2
π
e
−
(
k
)
2
/
2
d
d
k
(
k
)
−
1
2
π
e
−
(
−
k
)
2
/
2
d
d
k
(
−
k
)
=
1
2
π
e
−
k
2
1
k
\begin{aligned} \frac{d}{dk} F(k) &= \frac{1}{\sqrt{2 \pi}} e^{-(\sqrt{k})^2 / 2} \frac{d}{dk} (\sqrt{k}) - \frac{1}{\sqrt{2 \pi}} e^{-(-\sqrt{k})^2 / 2} \frac{d}{dk} (-\sqrt{k}) \\ &= \frac{1}{\sqrt{2 \pi}} e^{-\frac{k}{2}} \frac{1}{\sqrt{k}} \end{aligned}
dkdF(k)=2π1e−(k)2/2dkd(k)−2π1e−(−k)2/2dkd(−k)=2π1e−2kk1
这正是
f
(
x
∣
p
)
=
1
Γ
(
p
/
2
)
2
p
/
2
x
p
2
−
1
e
−
x
/
2
,
0
<
x
<
∞
f(x \vert p) = \frac{1}{\Gamma(p / 2) 2^{p / 2}} x^{\frac{p}{2} - 1} e^{-x / 2}, \, \, \, \, 0 < x < \infty
f(x∣p)=Γ(p/2)2p/21x2p−1e−x/2,0<x<∞
当
p
=
1
p = 1
p=1 时卡方分布 pdf 的表达式。
于是, Y ∼ χ 1 2 Y \sim \chi^2_1 Y∼χ12。
参考文献
[1] George Casella, Roger L. Berger, Statistical inference, Chapter 3.3