正态分布
正态分布(Normal Distribution)是连续型概率分布中最重要和最常见的一种。假设随机变量 ( X ) 服从均值为 ( \mu )、方差为 ( \sigma^2 ) 的正态分布,记作
正态分布的概率密度函数(PDF)为:
f ( x ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} f(x)=2πσ21e−2σ2(x−μ)2
期望值
期望值(Expectation)表示随机变量的平均值。对于正态分布 ( X ),其期望值 ( \mathbb{E}(X) ) 定义为:
E ( X ) = ∫ − ∞ ∞ x f ( x ) d x \mathbb{E}(X) = \int_{-\infty}^{\infty} x f(x) \, dx E(X)=∫−∞∞xf(x)dx
代入正态分布的概率密度函数:
E ( X ) = ∫ − ∞ ∞ x 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 d x \mathbb{E}(X) = \int_{-\infty}^{\infty} x \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} \, dx E(X)=∫−∞∞x2πσ21e−2σ2(x−μ)2dx
E ( X ) = ∫ − ∞ ∞ ( σ z + μ ) 1 2 π σ 2 e − z 2 2 σ d z \mathbb{E}(X) = \int_{-\infty}^{\infty} (\sigma z + \mu) \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{z^2}{2}} \sigma \, dz E(X)=∫−∞∞(σz+μ)2πσ21e−2z2σdz
简化后为:
E ( X ) = ∫ − ∞ ∞ ( σ z + μ ) σ 2 π σ 2 e − z 2 2 d z \mathbb{E}(X) = \int_{-\infty}^{\infty} (\sigma z + \mu) \frac{\sigma}{\sqrt{2\pi\sigma^2}} e^{-\frac{z^2}{2}} \, dz E(X)=∫−∞∞(σz+μ)2πσ2σe−2z2dz
将积分拆分为两部分:
E ( X ) = ∫ − ∞ ∞ σ z 1 2 π e − z 2 2 d z + ∫ − ∞ ∞ μ 1 2 π e − z 2 2 d z \mathbb{E}(X) = \int_{-\infty}^{\infty} \sigma z \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} \, dz + \int_{-\infty}^{\infty} \mu \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} \, dz E(X)=∫−∞∞σz2π1e−2z2dz+∫−∞∞μ2π1e−2z2dz
∫ − ∞ ∞ z e − z 2 2 d z = 0 \int_{-\infty}^{\infty} z e^{-\frac{z^2}{2}} \, dz = 0 ∫−∞∞ze−2z2dz=0
第二个积分为 ( \mu ) 乘以正态分布的积分,结果为 1:
∫ − ∞ ∞ μ 1 2 π e − z 2 2 d z = μ ⋅ 1 = μ \int_{-\infty}^{\infty} \mu \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} \, dz = \mu \cdot 1 = \mu ∫−∞∞μ2π1e−2z2dz=μ⋅1=μ
因此,
E ( X ) = μ \mathbb{E}(X) = \mu E(X)=μ
方差
方差(Variance)表示随机变量与其期望值之间的离散程度。方差的定义为:
Var ( X ) = E [ ( X − E ( X ) ) 2 ] = E [ ( X − μ ) 2 ] \text{Var}(X) = \mathbb{E}[(X - \mathbb{E}(X))^2] = \mathbb{E}[(X - \mu)^2] Var(X)=E[(X−E(X))2]=E[(X−μ)2]
我们首先计算 ( \mathbb{E}(X^2) ):
E ( X 2 ) = ∫ − ∞ ∞ x 2 f ( x ) d x \mathbb{E}(X^2) = \int_{-\infty}^{\infty} x^2 f(x) \, dx E(X2)=∫−∞∞x2f(x)dx
代入正态分布的概率密度函数:
E ( X 2 ) = ∫ − ∞ ∞ x 2 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 d x \mathbb{E}(X^2) = \int_{-\infty}^{\infty} x^2 \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} \, dx E(X2)=∫−∞∞x22πσ21e−2σ2(x−μ)2dx
E ( X 2 ) = ∫ − ∞ ∞ ( σ z + μ ) 2 1 2 π σ 2 e − z 2 2 σ d z \mathbb{E}(X^2) = \int_{-\infty}^{\infty} (\sigma z + \mu)^2 \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{z^2}{2}} \sigma \, dz E(X2)=∫−∞∞(σz+μ)22πσ21e−2z2σdz
简化后为:
E ( X 2 ) = ∫ − ∞ ∞ ( σ 2 z 2 + 2 σ μ z + μ 2 ) 1 2 π e − z 2 2 d z \mathbb{E}(X^2) = \int_{-\infty}^{\infty} (\sigma^2 z^2 + 2\sigma\mu z + \mu^2) \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} \, dz E(X2)=∫−∞∞(σ2z2+2σμz+μ2)2π1e−2z2dz
将积分拆分为三部分:
E ( X 2 ) = σ 2 ∫ − ∞ ∞ z 2 1 2 π e − z 2 2 d z + 2 σ μ ∫ − ∞ ∞ z 1 2 π e − z 2 2 d z + μ 2 ∫ − ∞ ∞ 1 2 π e − z 2 2 d z \mathbb{E}(X^2) = \sigma^2 \int_{-\infty}^{\infty} z^2 \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} \, dz + 2\sigma\mu \int_{-\infty}^{\infty} z \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} \, dz + \mu^2 \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} \, dz E(X2)=σ2∫−∞∞z22π1e−2z2dz+2σμ∫−∞∞z2π1e−2z2dz+μ2∫−∞∞2π1e−2z2dz
第二个积分为零,因为 ( z ) 是奇函数,而 ( e{-\frac{z2}{2}} ) 是偶函数:(奇*偶=奇函数)
∫ − ∞ ∞ z e − z 2 2 d z = 0 \int_{-\infty}^{\infty} z e^{-\frac{z^2}{2}} \, dz = 0 ∫−∞∞ze−2z2dz=0
第一个积分的结果是正态分布的二阶矩,已知:
∫ − ∞ ∞ z 2 1 2 π e − z 2 2 d z = 1 \int_{-\infty}^{\infty} z^2 \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} \, dz = 1 ∫−∞∞z22π1e−2z2dz=1
第三个积分为 1:
∫ − ∞ ∞ 1 2 π e − z 2 2 d z = 1 \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} \, dz = 1 ∫−∞∞2π1e−2z2dz=1
因此,
E ( X 2 ) = σ 2 ⋅ 1 + 0 + μ 2 ⋅ 1 = σ 2 + μ 2 \mathbb{E}(X^2) = \sigma^2 \cdot 1 + 0 + \mu^2 \cdot 1 = \sigma^2 + \mu^2 E(X2)=σ2⋅1+0+μ2⋅1=σ2+μ2
现在我们可以计算方差:
Var ( X ) = E ( X 2 ) − ( E ( X ) ) 2 = σ 2 + μ 2 − μ 2 = σ 2 \text{Var}(X) = \mathbb{E}(X^2) - (\mathbb{E}(X))^2 = \sigma^2 + \mu^2 - \mu^2 = \sigma^2 Var(X)=E(X2)−(E(X))2=σ2+μ2−μ2=σ2
结论
对于正态分布
其期望值和方差分别为:
E ( X ) = μ \mathbb{E}(X) = \mu E(X)=μ
Var ( X ) = σ 2 \text{Var}(X) = \sigma^2 Var(X)=σ2
这些结果表明,正态分布的均值是 ( \mu ),方差是 ( \sigma^2 ),反映了数据的集中趋势和离散程度。