Bootstrap

图像处理中常用的统计矩

原点矩(Moment about the Origin)和中心矩(Central Moment)是概率论和数理统计中描述随机变量分布特征的统计量。

原点矩

原点矩基于随机变量与其原点(通常是0)之间的距离进行定义,用于描述数据的集中趋势、离散程度等特性。

对于一个随机变量 X X X,其 r r r阶原点矩定义为:

μ r = E ( X r ) \mu_r = E(X^r) μr=E(Xr)

其中:

  • E E E表示期望值。
  • r r r是一个正整数,表示矩的阶数。

连续型随机变量:如果 X X X是连续型随机变量,其概率密度函数为 f ( x ) f(x) f(x),则 r r r阶原点矩可以表示为:

μ r = ∫ − ∞ ∞ x r f ( x )   d x \mu_r = \int_{-\infty}^{\infty} x^r f(x) \, dx μr=xrf(x)dx

离散型随机变量:如果 X X X是离散型随机变量,其概率分布列为 p ( x i ) p(x_i) p(xi),则 r r r阶原点矩可以表示为:

μ r = ∑ i x i r p ( x i ) \mu_r = \sum_{i} x_i^r p(x_i) μr=ixirp(xi)

中心矩

与原点矩不同,中心矩是基于随机变量与其期望值(均值)之间的偏差进行定义的,主要用于描述数据的离散程度、对称性和峰态等特性。

对于一个随机变量 X X X,其 r r r阶中心矩定义为:

m r = E [ ( X − μ ) r ] m_r = E[(X - \mu)^r] mr=E[(Xμ)r]

其中:

  • E E E表示期望值。
  • μ = E ( X ) \mu = E(X) μ=E(X)是随机变量 X X X的期望值。
  • r r r是一个正整数,表示矩的阶数。

连续型随机变量:如果 X X X是连续型随机变量,其概率密度函数为 f ( x ) f(x) f(x),则 r r r阶中心矩可以表示为:

m r = ∫ − ∞ ∞ ( x − μ ) r f ( x )   d x m_r = \int_{-\infty}^{\infty} (x - \mu)^r f(x) \, dx mr=(xμ)rf(x)dx

离散型随机变量:如果 X X X是离散型随机变量,其概率质量函数为 p ( x i ) p(x_i) p(xi),则 r r r阶中心矩可以表示为:

m r = ∑ i ( x i − μ ) r p ( x i ) m_r = \sum_{i} (x_i - \mu)^r p(x_i) mr=i(xiμ)rp(xi)

常用的统计矩

  1. 一阶原点矩(均值)

    • 定义: μ 1 = E ( X ) \mu_1 = E(X) μ1=E(X)
    • 描述:一阶原点矩即为随机变量的期望值,表示数据的中心位置或平均值。
  2. 二阶中心矩(方差)

    • 定义: m 2 = E [ ( X − μ ) 2 ] m_2 = E[(X - \mu)^2] m2=E[(Xμ)2]
    • 描述:二阶中心矩即为方差 σ 2 \sigma^2 σ2,表示数据的离散程度或波动大小。方差的平方根称为标准差 σ \sigma σ
  3. 三阶中心矩

    • 定义: m 3 = E [ ( X − μ ) 3 ] m_3 = E[(X - \mu)^3] m3=E[(Xμ)3]
    • 描述:三阶中心矩经过标准化(除以标准差的三次方)后称为偏度 γ 1 \gamma_1 γ1,用于描述分布的不对称性。正偏度表示分布有较长的右尾,负偏度表示有较长的左尾。
  4. 四阶中心矩

    • 定义: m 4 = E [ ( X − μ ) 4 ] m_4 = E[(X - \mu)^4] m4=E[(Xμ)4]
    • 描述:四阶中心矩经过标准化(除以标准差的四次方)后称为峰度 γ 2 \gamma_2 γ2,用于描述分布的峰态或“尖峭”程度。标准正态分布的峰度为3,因此有时会报告超额峰度(即峰度减去3),以突出与正态分布相比的差异。

偏度(Skewness)

偏度(Skewness)是描述概率分布对称性的统计量,用于衡量数据分布的不对称程度。具体来说,偏度可以告诉我们数据分布的尾部是否偏向某一侧。正偏度表示分布有较长的右尾,而负偏度表示有较长的左尾。标准正态分布的偏度为0,表示其是对称的。

定义

偏度通常通过三阶中心矩标准化后得到。对于一个随机变量 X X X,其偏度 γ 1 \gamma_1 γ1定义为:

γ 1 = m 3 σ 3 \gamma_1 = \frac{m_3}{\sigma^3} γ1=σ3m3

其中:

  • m 3 = E [ ( X − μ ) 3 ] m_3 = E[(X - \mu)^3] m3=E[(Xμ)3]是三阶中心矩。
  • μ = E ( X ) \mu = E(X) μ=E(X)是随机变量 X X X的期望值。
  • σ = m 2 = E [ ( X − μ ) 2 ] \sigma = \sqrt{m_2} = \sqrt{E[(X - \mu)^2]} σ=m2 =E[(Xμ)2] 是标准差,其中 m 2 m_2 m2是二阶中心矩(方差)。

标准差 σ \sigma σ的量纲与 X X X相同,因此 σ 3 \sigma^3 σ3的量纲也是 X X X的量纲的三次方。通过除以标准差的三次方,偏度成为了一个无量纲的统计量,不受量纲的影响,使得不同数据集的偏度可以直接进行比较。

解释

  1. 正偏度(Positive Skewness)

    • γ 1 > 0 \gamma_1 > 0 γ1>0时,表示分布有较长的右尾。这表明大多数数据集中在左侧,而右侧有少量极端值。
  2. 负偏度(Negative Skewness)

    • γ 1 < 0 \gamma_1 < 0 γ1<0时,表示分布有较长的左尾。这表明大多数数据集中在右侧,而左侧有少量极端值。
  3. 对称分布

    • γ 1 = 0 \gamma_1 = 0 γ1=0时,表示分布是对称的,如标准正态分布。

峰度(Kurtosis)

峰度(Kurtosis)是描述概率分布形状的一个统计量,特别关注分布的“峰态”或“尖峭”程度。峰度衡量的是数据分布的尾部重厚程度以及峰顶的尖锐程度,与正态分布相比较而言。

定义

对于一个随机变量 X X X,其峰度定义为四阶中心矩除以方差的平方,再减去3:

Kurtosis ( X ) = E [ ( X − μ ) 4 ] ( σ 2 ) 2 − 3 = m 4 σ 4 − 3 \text{Kurtosis}(X) = \frac{E[(X - \mu)^4]}{(\sigma^2)^2} - 3= \frac{m_4}{\sigma^4} - 3 Kurtosis(X)=(σ2)2E[(Xμ)4]3=σ4m43

其中:

  • E [ ( X − μ ) 4 ] E[(X - \mu)^4] E[(Xμ)4] 表示 X X X 的四阶中心矩。
  • μ = E ( X ) \mu = E(X) μ=E(X) X X X 的期望值。
  • σ 2 = V a r ( X ) = E [ ( X − μ ) 2 ] \sigma^2 = Var(X) = E[(X - \mu)^2] σ2=Var(X)=E[(Xμ)2] X X X 的方差。

解释

  1. 标准正态分布:标准正态分布的峰度为0(或说其超额峰度为0)。这是因为它的四阶中心矩正好是方差平方的3倍,因此在上述公式中减去3之后结果为0。

  2. 正峰度(Leptokurtic):如果一个分布的峰度大于0(即超额峰度大于0),则说明该分布比正态分布更“尖”,且具有更重的尾部。这表明分布中有更多的极端值。

  3. 负峰度(Platykurtic):如果一个分布的峰度小于0(即超额峰度小于0),则说明该分布比正态分布更“平”,且具有较轻的尾部。这表明分布中的极端值较少,大多数观测值集中在均值附近。

统计矩的应用

  • 描述数据分布:通过计算不同阶数的中心矩,可以全面地描述数据的分布特性,如离散程度、对称性和峰态。
  • 参数估计:在参数估计中,中心矩常用于估计总体参数,特别是在矩估计法中。
  • 数据分析:中心矩可以用于各种数据分析任务,如计算方差、偏度和峰度等。

MATLAB相关函数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

;