Bootstrap

chi square-卡方分布的定义及性质

摘要

本文将介绍卡方分布的定义及相关性质,以及卡方分布与正态分布的关系。

χ 2 \chi^2 χ2分布 (卡方分布) 的定义

g a m m a gamma gamma 分布

首先, χ 2 \chi^2 χ2分布是一种特殊的 g a m m a gamma gamma 分布。所以在看卡方分布的定义及性质之前,我们先来看 Gamma 分布的定义。

g a m m a gamma gamma 分布由两个参数 α \alpha α β \beta β 决定。 g a m m a ( α ,   β ) gamma(\alpha, \, \beta) gamma(α,β) 的概率密度函数 (pdf) 为:
f ( x ∣ α , β ) = 1 Γ ( α ) β α x α − 1 e − x / β ,   0 < x < ∞ , α > 0 , β > 0 (1) \displaystyle f(x|\alpha, \beta) = \dfrac{1}{\Gamma(\alpha) \beta^\alpha} x^{\alpha - 1} e^{-x/\beta},\, 0 < x < \infty, \alpha > 0, \beta > 0 \tag{1} f(xα,β)=Γ(α)βα1xα1ex/β,0<x<,α>0,β>0(1)
其中 Γ ( x ) \Gamma(x) Γ(x) 是 gamma 函数, Γ ( α ) = ∫ 0 ∞ t α − 1 e − t d t \displaystyle \Gamma(\alpha) = \int_{0}^{\infty} t^{\alpha - 1} e^{-t} dt Γ(α)=0tα1etdt

g a m m a ( α ,   β ) gamma(\alpha, \, \beta) gamma(α,β) 分布中,如果我们令 α = p / 2 ,   β = 2 \alpha = p / 2, \, \beta = 2 α=p/2,β=2,那么我们就得到了自由度为 p p p χ 2 \chi^2 χ2 分布,记为 χ p 2 \chi^2_p χp2 分布。

g a m m a gamma gamma 分布的期望、方差及距生成函数

在看卡方分布的性质之前,我们先看一下 g a m m a gamma gamma 分布的性质。

假设 X ∼ g a m m a ( α ,   β ) X \sim gamma(\alpha, \, \beta) Xgamma(α,β),那么我们有
E ( X ) = α β , Var ( X ) = α β 2 \mathbb{E}(X) = \alpha \beta, \text{Var}(X) = \alpha \beta^2 E(X)=αβ,Var(X)=αβ2
证明过程可参见 [1]。我们在附录中给出 Var ( X ) = α β 2 \text{Var}(X) = \alpha \beta^2 Var(X)=αβ2 的证明。

g a m m a gamma gamma 分布的距生成函数 (moment-generating function, mgf) 为
M X ( t ) = E ( e t x ) = ( 1 1 − β t ) α , t < 1 β \displaystyle M_X(t) = \mathbb{E}(e^{tx}) = \Big ( \dfrac{1}{1 - \beta t} \Big) ^{\alpha}, t < \dfrac{1}{\beta} MX(t)=E(etx)=(1βt1)α,t<β1

其证明过程可参见 Casella Example 2.3.8。

另外,根据 Casella Theorem 4.6.7,我们知道如果
X 1 ∼ g a m m a ( α 1 , β ) ,   X 1 ∼ g a m m a ( α 2 , β ) , ⋯   , X n ∼ g a m m a ( α n , β ) X_1 \sim gamma(\alpha_1, \beta), \, X_1 \sim gamma(\alpha_2, \beta), \cdots, X_n \sim gamma(\alpha_n, \beta) X1gamma(α1,β),X1gamma(α2,β),,Xngamma(αn,β)
X i X_i Xi 是独立的,那么
X 1 + X 2 + ⋯ X n ∼ g a m m a ( α 1 + α 2 + ⋯ + α n , β ) X_1 + X_2 + \cdots X_n \sim gamma(\alpha_1 + \alpha_2 + \cdots + \alpha_n, \beta) X1+X2+Xngamma(α1+α2++αn,β)
n n n 个独立的有相同 β \beta β 参数的 g a m m a gamma gamma 分布的和仍然是一个 g a m m a gamma gamma 分布。

χ 2 \chi^2 χ2分布的 pdf

α = p / 2 ,   β = 2 \alpha = p / 2, \, \beta = 2 α=p/2,β=2 代入 g a m m a ( α ,   β ) gamma(\alpha, \, \beta) gamma(α,β) 的 pdf,我们有
f ( x ∣ p ) = 1 Γ ( p / 2 ) 2 p / 2 x p 2 − 1 e − x / 2 ,      0 < x < ∞ (2) f(x \vert p) = \frac{1}{\Gamma(p / 2) 2^{p / 2}} x^{\frac{p}{2} - 1} e^{-x / 2}, \, \, \, \, 0 < x < \infty \tag{2} f(xp)=Γ(p/2)2p/21x2p1ex/2,0<x<(2)
这便是 χ p 2 \chi^2_p χp2 分布的概率密度函数。

χ 2 \chi^2 χ2分布的性质

由于 χ p 2 \chi^2_p χp2 分布是 α = p / 2 \alpha = p / 2 α=p/2, β = 2 \beta = 2 β=2 g a m m a gamma gamma 分布,故我们可以直接套用 g a m m a gamma gamma 分布的期望与方差公式。
E χ p 2 ( X ) = p , Var χ p 2 ( X ) = 2 p \mathbb{E}_{\chi^2_p}(X) = p, \text{Var}_{\chi^2_p}(X) = 2p Eχp2(X)=p,Varχp2(X)=2p

另外,根据独立 g a m m a gamma gamma 分布的相加性的性质,我们有对于独立的 χ p 2 \chi^2_p χp2 分布 X i ∼ χ p i 2 X_i \sim \chi^2_{p_i} Xiχpi2,那么 ∑ X i ∼ χ ∑ p i 2 \displaystyle \sum X_i \sim \chi^2_{\sum p_i} Xiχpi2
n n n 个独立的 χ 2 \chi^2 χ2 分布的和仍然是一个 χ 2 \chi^2 χ2 分布,加和分布的自由度等于所有自由度的和。

χ 2 \chi^2 χ2分布与正态分布的关系

χ 2 \chi^2 χ2分布与正态分布有什么关系呢?

首先,如果 Z ∼ N ( 0 , 1 ) Z \sim N(0, 1) ZN(0,1),即 Z Z Z 服从标准正态分布,那么 Z 2 ∼ χ 1 2 Z^2 \sim \chi^2_1 Z2χ12。即标准正态分布的平方服从自由度为 1 的卡方分布。证明过程比较直接,参见附录。

另外,我们有如下定理。

如果有 n n n 个独立同分布的正态分布 X i ∼ N ( μ ,   σ 2 ) , i = 1 ,   2 ,   ⋯   , n X_i \sim N(\mu, \, \sigma^2), i = 1, \, 2, \, \cdots, n XiN(μ,σ2),i=1,2,,n。样本方差为 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 \displaystyle S^2 =\dfrac{1}{n - 1} \sum_{i = 1}^n (X_i - \bar{X})^2 S2=n11i=1n(XiXˉ)2。那么 ( n − 1 ) S 2 / σ 2 \displaystyle (n - 1)S^2/\sigma^2 (n1)S2/σ2 服从自由度为 n − 1 n - 1 n1 χ 2 \chi^2 χ2分布。

这个结论的证明可见 Casella Theorem 5.3.1。

scipy 中的函数

scipychi2 可以用来产生 χ 2 \chi^2 χ2分布的各种相关函数。

  • pdf(x, df, loc=0, scale=1) 是自由度为 df 的 χ 2 \chi^2 χ2分布的 pdf;
  • rvs(df, loc=0, scale=1, size=1, random_state=None) 可以生成 size 个服从自由度为 df 的 χ 2 \chi^2 χ2分布的随机数;
  • cdf(x, df, loc=0, scale=1) 是自由度为 df 的 χ 2 \chi^2 χ2分布的 cdf;
  • ppf(q, df, loc=0, scale=1) 是自由度为 df 的 χ 2 \chi^2 χ2分布的分位数。

附录

g a m m a gamma gamma 分布的方差公式

假设 X ∼ g a m m a ( α ,   β ) X \sim gamma(\alpha, \, \beta) Xgamma(α,β)。这里我们假设已经证明了 E ( X ) = α β \mathbb{E} (X) = \alpha \beta E(X)=αβ。我们计算 E ( X 2 ) \mathbb{E} (X^2) E(X2)

E ( X 2 ) = ∫ 0 ∞ x 2 1 Γ ( α ) β α x α − 1 e − x / β d x = 1 Γ ( α ) β α ∫ 0 ∞ x α + 1 e − x / β d x \begin{aligned} \mathbb{E}(X^2) &= \int_0^{\infty} x^2 \dfrac{1}{\Gamma(\alpha) \beta^\alpha} x^{\alpha - 1} e^{-x/\beta} dx \\ &= \dfrac{1}{\Gamma(\alpha) \beta^\alpha} \int_0^{\infty} x^{\alpha + 1} e^{-x/\beta} dx \end{aligned} E(X2)=0x2Γ(α)βα1xα1ex/βdx=Γ(α)βα10xα+1ex/βdx
因为我们知道 ∫ 0 ∞ x α − 1 e − x / β d x = Γ ( α ) β α \displaystyle \int_0^{\infty} x^{\alpha - 1} e^{-x/\beta} dx = \Gamma(\alpha) \beta^\alpha 0xα1ex/βdx=Γ(α)βα (根据 pdf 积分为1 可知),所以我们有 ∫ 0 ∞ x α + 1 e − x / β d x = Γ ( α + 2 ) β α + 2 = ( α + 1 ) Γ ( α + 1 ) β α + 2 = α ( α + 1 ) Γ ( α ) β α + 2 \displaystyle \int_0^{\infty} x^{\alpha + 1} e^{-x/\beta} dx= \Gamma(\alpha + 2) \beta^{\alpha + 2} = (\alpha + 1) \Gamma(\alpha + 1) \beta^{\alpha + 2} =\alpha (\alpha + 1) \Gamma(\alpha) \beta^{\alpha + 2} 0xα+1ex/βdx=Γ(α+2)βα+2=(α+1)Γ(α+1)βα+2=α(α+1)Γ(α)βα+2。故 E ( X 2 ) = α ( α + 1 ) β 2 \mathbb{E} (X^2) = \alpha (\alpha + 1) \beta^2 E(X2)=α(α+1)β2

于是,
Var ( X ) = E ( X 2 ) − ( E ( X ) ) 2 = α ( α + 1 ) β 2 − ( α β ) 2 = α β 2 \begin{aligned} \text{Var}(X) &= \mathbb{E} (X^2) - (\mathbb{E} (X))^2 \\ &= \alpha (\alpha + 1) \beta^2 - ( \alpha \beta)^2 \\ &=\alpha \beta^2 \end{aligned} Var(X)=E(X2)(E(X))2=α(α+1)β2(αβ)2=αβ2

标准正态分布的平方

假设 X ∼ N ( 0 , 1 ) X \sim N(0, 1) XN(0,1) Y = X 2 Y = X^2 Y=X2。我们要求出 Y Y Y 的分布。我们计算 F ( k ) = P ( Y ≤ k ) , k > 0 F(k) = P(Y \leq k), k > 0 F(k)=P(Yk),k>0。求出累积分布函数 F ( k ) F(k) F(k) 之后,我们可以对 F ( k ) F(k) F(k) 求导,来求出 Y Y Y 的概率密度函数。

F ( k ) = P ( Y ≤ k ) = P ( − k ≤ X ≤ k ) = ∫ − k k 1 2 π e − x 2 / 2 d x = ∫ − ∞ k 1 2 π e − x 2 / 2 d x − ∫ − ∞ − k 1 2 π e − x 2 / 2 d x \begin{aligned} F(k) = P(Y \leq k) &= P(-\sqrt{k} \leq X \leq \sqrt{k}) \\ &= \int_{-\sqrt{k}}^{\sqrt{k}} \frac{1}{\sqrt{2 \pi}} e^{-x^2 / 2} dx \\ &= \int_{-\infty}^{\sqrt{k}} \frac{1}{\sqrt{2 \pi}} e^{-x^2 / 2} dx - \int_{-\infty}^{-\sqrt{k}} \frac{1}{\sqrt{2 \pi}} e^{-x^2 / 2} dx \end{aligned} F(k)=P(Yk)=P(k Xk )=k k 2π 1ex2/2dx=k 2π 1ex2/2dxk 2π 1ex2/2dx
F ( k ) F(k) F(k) 求导,我们有
d d k F ( k ) = 1 2 π e − ( k ) 2 / 2 d d k ( k ) − 1 2 π e − ( − k ) 2 / 2 d d k ( − k ) = 1 2 π e − k 2 1 k \begin{aligned} \frac{d}{dk} F(k) &= \frac{1}{\sqrt{2 \pi}} e^{-(\sqrt{k})^2 / 2} \frac{d}{dk} (\sqrt{k}) - \frac{1}{\sqrt{2 \pi}} e^{-(-\sqrt{k})^2 / 2} \frac{d}{dk} (-\sqrt{k}) \\ &= \frac{1}{\sqrt{2 \pi}} e^{-\frac{k}{2}} \frac{1}{\sqrt{k}} \end{aligned} dkdF(k)=2π 1e(k )2/2dkd(k )2π 1e(k )2/2dkd(k )=2π 1e2kk 1

这正是
f ( x ∣ p ) = 1 Γ ( p / 2 ) 2 p / 2 x p 2 − 1 e − x / 2 ,      0 < x < ∞ f(x \vert p) = \frac{1}{\Gamma(p / 2) 2^{p / 2}} x^{\frac{p}{2} - 1} e^{-x / 2}, \, \, \, \, 0 < x < \infty f(xp)=Γ(p/2)2p/21x2p1ex/2,0<x<
p = 1 p = 1 p=1 时卡方分布 pdf 的表达式。

于是, Y ∼ χ 1 2 Y \sim \chi^2_1 Yχ12

参考文献

[1] George Casella, Roger L. Berger, Statistical inference, Chapter 3.3

;