图像处理中常用的统计矩

原点矩

原点矩基于随机变量与其原点（通常是0）之间的距离进行定义，用于描述数据的集中趋势、离散程度等特性。

对于一个随机变量 $X$ ，其 $r$ 阶原点矩定义为：

$\mu_r = E(X^r)$

其中：

连续型随机变量：如果 $X$ 是连续型随机变量，其概率密度函数为 $f (x)$ ，则 $r$ 阶原点矩可以表示为：

$\mu_r = \int_{-\infty}^{\infty} x^r f(x) \, dx$

离散型随机变量：如果 $X$ 是离散型随机变量，其概率分布列为 $p(x_i)$ ，则 $r$ 阶原点矩可以表示为：

$\mu_r = \sum_{i} x_i^r p(x_i)$

与原点矩不同，中心矩是基于随机变量与其期望值（均值）之间的偏差进行定义的，主要用于描述数据的离散程度、对称性和峰态等特性。

对于一个随机变量 $X$ ，其 $r$ 阶中心矩定义为：

$m_r = E[(X - \mu)^r]$

其中：

连续型随机变量：如果 $X$ 是连续型随机变量，其概率密度函数为 $f (x)$ ，则 $r$ 阶中心矩可以表示为：

$m_r = \int_{-\infty}^{\infty} (x - \mu)^r f(x) \, dx$

离散型随机变量：如果 $X$ 是离散型随机变量，其概率质量函数为 $p(x_i)$ ，则 $r$ 阶中心矩可以表示为：

$m_r = \sum_{i} (x_i - \mu)^r p(x_i)$

一阶原点矩（均值）：
- 定义： $\mu_1 = E(X)$
- 描述：一阶原点矩即为随机变量的期望值，表示数据的中心位置或平均值。
二阶中心矩（方差）：
- 定义： $m_2 = E[(X - \mu)^2]$
- 描述：二阶中心矩即为方差 $\sigma^2$ ，表示数据的离散程度或波动大小。方差的平方根称为标准差 $\sigma$ 。
三阶中心矩：
- 定义： $m_3 = E[(X - \mu)^3]$
- 描述：三阶中心矩经过标准化（除以标准差的三次方）后称为偏度 $\gamma_1$ ，用于描述分布的不对称性。正偏度表示分布有较长的右尾，负偏度表示有较长的左尾。
四阶中心矩：
- 定义： $m_4 = E[(X - \mu)^4]$
- 描述：四阶中心矩经过标准化（除以标准差的四次方）后称为峰度 $\gamma_2$ ，用于描述分布的峰态或“尖峭”程度。标准正态分布的峰度为3，因此有时会报告超额峰度（即峰度减去3），以突出与正态分布相比的差异。

偏度（Skewness）是描述概率分布对称性的统计量，用于衡量数据分布的不对称程度。具体来说，偏度可以告诉我们数据分布的尾部是否偏向某一侧。正偏度表示分布有较长的右尾，而负偏度表示有较长的左尾。标准正态分布的偏度为0，表示其是对称的。

偏度通常通过三阶中心矩标准化后得到。对于一个随机变量 $X$ ，其偏度 $\gamma_1$ 定义为：

$\gamma_1 = \frac{m_3}{\sigma^3}$

其中：

标准差 $\sigma$ 的量纲与 $X$ 相同，因此 $\sigma^3$ 的量纲也是 $X$ 的量纲的三次方。通过除以标准差的三次方，偏度成为了一个无量纲的统计量，不受量纲的影响，使得不同数据集的偏度可以直接进行比较。

正偏度（Positive Skewness）：
- 当 $\gamma_1 > 0$ 时，表示分布有较长的右尾。这表明大多数数据集中在左侧，而右侧有少量极端值。
负偏度（Negative Skewness）：
- 当 $\gamma_1 < 0$ 时，表示分布有较长的左尾。这表明大多数数据集中在右侧，而左侧有少量极端值。
对称分布：
- 当 $\gamma_1 = 0$ 时，表示分布是对称的，如标准正态分布。

峰度（Kurtosis）是描述概率分布形状的一个统计量，特别关注分布的“峰态”或“尖峭”程度。峰度衡量的是数据分布的尾部重厚程度以及峰顶的尖锐程度，与正态分布相比较而言。

对于一个随机变量 $X$ ，其峰度定义为四阶中心矩除以方差的平方，再减去3：

$\text{Kurtosis}(X) = \frac{E[(X - \mu)^4]}{(\sigma^2)^2} - 3= \frac{m_4}{\sigma^4} - 3$

其中：

标准正态分布：标准正态分布的峰度为0（或说其超额峰度为0）。这是因为它的四阶中心矩正好是方差平方的3倍，因此在上述公式中减去3之后结果为0。
正峰度（Leptokurtic）：如果一个分布的峰度大于0（即超额峰度大于0），则说明该分布比正态分布更“尖”，且具有更重的尾部。这表明分布中有更多的极端值。
负峰度（Platykurtic）：如果一个分布的峰度小于0（即超额峰度小于0），则说明该分布比正态分布更“平”，且具有较轻的尾部。这表明分布中的极端值较少，大多数观测值集中在均值附近。