非局部均值滤波和用于高光谱分类的新颖度量方式的NLM

文章目录

paper： Hyperspectral Image Classification Based on Nonlocal Means With a Novel Class-Relativity Measurement
均值与非局部均值滤波的思想与普通网络和attention网络的思想我认为是一致的，非常像，对我来说认为两者思想一样是一个聚合总结的过程，也许等我了解的更多，我会经历一个发散找到两者不同的过程。

1 均值和非局部均值滤波

均值滤波器利用滑窗的方式以滑窗的均值代替中心像素的值，进行滤波。缺点：

当方框的半径越大，得到的图像中那些变化较大的地方（边缘）计算后变化就越小，即边缘不明显，即模糊；
而且像素之间的相似性并不局限于一个很小的块，像是长边缘，或者结构纹理就可能再很远的地方仍然存在相似性。

非局部均值滤波器是图像去噪一种很好的方法，基本原理与均值滤波类似，都是要取平均值，但是非局部均值滤波在计算中加入了每一个点的权重值，所以能够保证在相邻且相差很大的点在方框中求平均值时相互之间的影响减小，也就对图像边缘细节部分保留很多，这样图像看起来会更清晰。

首先在一个点A周围取一个大的框（搜索框），设边长为s，A在方框的中心，然后再在方框中取小的方框，即相似框，设边长为d
如图所示，红色的点为中心点A，整个 $5\times 5$ 的矩形为中心点A的搜索框,即 $s = 5$ ，方框中取小的相似框边长为3，即 $d = 3$ ,这时中心点A对应的相似框为蓝色部分 $3\times 3$ 的区域Q，以绿色点为中心的相似框为红斜线部分P，计算P与Q的差值，并加入高斯核计算得到的加权值
在搜索框内找到所有边长为d 的小方框，即红色斜线框P在搜索框内移动，记录中心点的坐标，记录所有相似框与Q相减，并且加入高斯核计算得到的加权值，这样可以得到一个二维数组，里面存放着各个点的差值乘以权重后的值，加入高斯核主要是因为距离中心点距离不同对中心点的影响大小也不同，离中心点越近，权重值越大一些而且高斯核的权重和是1，所以就不用再归一化了。
加入高斯核后，由下图可以看到距离中心点越近权重越大。
然后将这个二维数组求和，得到的值就是这个相似框的中心点B对于A的权重值。计算出A周围所有点的权重值，其实这个时候这个值和权重是成反比的，以A本身为例（以A为中心点的相似框），计算出来A对于A的所谓权重值是零。然后根据计算出来的值用一个指数减函数就得到了成正比的权重关系，具体的函数见下面的代码，w=exp(-d/h)，就是这个，其中d就是计算出来的值啦，代入后w就是成正比的权重关系啦，h是一个滤波百分比值，可以先固定为一个常数，而且这个计算出来w就是一个自动归一化的(0,1)的值。
然后就是根据得到的权重值【需要将所有的权重值规范化，使其和为1】以及各个点本身的灰度值计算出非局部均值滤波后A点的灰度值。
以此类推，可以计算出图中所有点经过非局部均值滤波后的值

优点：
可以既去除噪声，又保留图像边缘细节；当然去噪声指的一般是高斯白噪声，因为高斯白噪声的均值是0，所以求和取平均会比较有效果
缺点：
效率比较低

2 论文【使用新的相似性度量方法做非局部均值滤波】

我们看到前面的非局部均值滤波求解相似块的相似性的时候使用高斯核进行计算，这篇文章利用KL散度设计了一种新颖的相似性度量方法。
$X=\left\{x_{1}, \ldots, x_{n}\right\} \in R^{B \times n}$ 表示 $n$ 个像素B维特征的高光谱图像
$\Omega \equiv\{1, \ldots, K\}$ K个标签的集合
$Y=\left\{y_{1}, \ldots, y_{n}\right\} \in \Omega^{n}$ HIC（高光谱图像分类）的最终目的是将标签划分到标签集合 $\Omega$
本文，首先将高光谱图像投影到主成分分析的空间，获得一幅多维图像P。选择该图像的前 $d$ 维 $P_f = P_{1}, P_{2}, \ldots, P_{d}$ ， $P= P_f+P_r$ ， $P_r$ 表示剩余由噪声控制的图像，因为它们是综合的、压缩的、降噪的表示，并且与原始图像X中的每个像素相关联。该图像的剩余维度主要是噪声。
多项逻辑回归数学和统计基础稳固，能够很好的解决由光谱特性给HIS带来的不适定分类问题，利用 $P_f$ 在像素点 $i$ 的PCA特征向量，得到像素点 $i$ 的类别后验为 $p\left(y_{i} | P_{f}^{i}\right)$ ： $p\left(y_{i}=k | P_{f}^{i}, \boldsymbol{\omega}\right) \equiv \frac{\exp \left(\boldsymbol{\omega}^{(k)} \mathbf{h}\left(\mathbf{x}_{i}\right)\right)}{\sum_{k=1}^{K} \exp \left(\boldsymbol{\omega}^{(k)} \mathbf{h}\left(\mathbf{x}_{i}\right)\right)}$ 其中 $\mathbf{h}(\mathbf{x}) \equiv\left[h_{1}(x), \ldots, h_{m}(x)\right]^{T}$ 指输入的 $m$ 个固定函数，通常指特征， $\omega(\mathbf{x}) \equiv\left[\omega_{1}(1)^{T}, \ldots, \omega_{1}(K)^{T}\right]^{T}$ 表示逻辑回归器。RBF核用于提高转换空间的可分性， $K(\mathbf{x}, \mathbf{z})=\exp \left(-\|\mathbf{x}-\mathbf{z}\|^{2} /\left(2 \rho^{2}\right)\right)$ ，因此特征可以表示为 $\mathbf{h}\left(\mathbf{x}_{i}\right) \equiv\left[1, K\left(P_{f}^{i}, P_{f}^{1}\right) \ldots, K\left(P_{f}^{i}, P_{f}^{L}\right)\right]^{T}$ 【L表示训练样本的个数】。同时，逻辑回归器 $\hat{\omega}$ 参数通过变量分裂和增广拉格朗日(LORSAL)算法学习得到【参数学习用一些优化方法学习得到。】。

2.1 类相似性度量

欧式距离是测量两个样本相似性最重要最广泛的方法，实践中，为了减小噪声影响并扩充样本容量，使用以 $x_i$ 和 $x_j$ 为中心的正方形框 $N_{i}$ 和 $N_{j}$ 的相似性代替两个样本的相似性，即第一部分介绍的非局部滤波。相似性度量公式变为： $R_{i,j}=\exp \left(-\frac{\left\|I_{N_{i}}-I_{N_{j}}\right\|^{2}}{\sigma^{2}}\right)$ 其中 $I_{N_{i}}$ 和 $I_{N_{j}}$ 表示以以 $x_i$ 和 $x_j$ 为中心的图像块， $R_{i}$ 表示两个像素的相似性。
在传统的非局部均匀滤波算法中，权重是基于欧式距离计算的，实际上，测度应该是根据任务决定的，因此本文用于高光谱图像分类的一个直观改变时使用任务依赖距离代替计算权值时的欧式距离。文章假设非局部相似块有相似的类别结构，根据KL散度提出一种类相似性测量方法。
为了简便，令 $p\left(y_{i} | \hat{\boldsymbol{\omega}}\right) \equiv p\left(y_{i} | P_{f}^{i}, \hat{\omega}\right) \equiv \left[p\left(y_{i}=1 | \hat{\boldsymbol{\omega}}\right), \ldots, p\left(y_{i}=K | \hat{\omega}\right)\right]^{T}$ ， $p\left(y_{i} | \hat{\boldsymbol{\omega}}\right)$ 和 $p\left(y_{j} | \hat{\boldsymbol{\omega}}\right)$ 表示两个样本 $i$ 和 $j$ 的后验概率向量， $\in \Omega$ ， $x_i$ 到 $x_j$ 的距离表示为： $d_{i, j}=\sum_{k=1}^{K} p\left(y_{i}=k | \widehat{\boldsymbol{\omega}}\right) \log \left(\frac{p\left(y_{i}=k | \widehat{\boldsymbol{\omega}}\right)}{p\left(y_{j}=k | \widehat{\boldsymbol{\omega}}\right)}\right)$ $\sum_{k=1}^{K} p\left(y_{i}=k | \widehat{\boldsymbol{\omega}}\right)=1$

$d_{i, j}$ 是非负的，也就是 $d_{i, j} \geq 0$ ，当且仅当 $p\left(y_{i} | \hat{\boldsymbol{\omega}}\right) \equiv p\left(y_{i} | \hat{\boldsymbol{\omega}}\right)$ 时等号成立。这个测量是非对称的， $d_{i, j} \neq d_{j, i}$ ，对称版本可以写为： $\begin{aligned} d_{i, j}^{\prime} &=D\left(p\left(y_{i} | \widehat{\boldsymbol{\omega}}\right), p\left(y_{j} | \widehat{\boldsymbol{\omega}}\right)\right) \\ &=D\left(p\left(y_{j} | \widehat{\boldsymbol{\omega}}\right), p\left(y_{i} | \widehat{\boldsymbol{\omega}}\right)\right)=d_{i, j}+d_{j, i} \end{aligned}$
与两个分布的KL散度一样，这种测量能够看作 $x_i$ 和 $x_j$ 之间的判别信息，距离越小，两个样本属于同一类的可能性越大。因此，两个 $\times l$ 的图像块 $N_{i}$ 和 $N_{j}$ 之间的距离测度为： $\begin{array}{l}{d_{N_{i}, N_{j}}} \\ {=\sum_{m=1}^{M} d_{N_{i}(m), N_{j}(m)}^{\prime}} \\ {=\sum_{m=1}^{M} \sum_{k=1}^{K}\left\{p\left(y_{N_{i}(m)}=k | \widehat{\boldsymbol{\omega}}\right) \log \left(\frac{p\left(y_{N_{i}(m)}=k | \overline{\omega}\right)}{p\left(y_{N_{j}(m)}=k | \overline{\omega}\right)}\right)+p\left(y_{N_{j}(m)}=k | \widehat{\omega}\right) \log \left(\frac{p\left(y_{N_{j}(m)}=k | \widehat{\omega}\right)}{p\left(y_{N_{i}(m)}=k | \widehat{\omega}\right)}\right) \}\right.} \end{array}$
其中M是图像块中元素的个数 $M=l^{2}$ ，也就是两个相似块的相似性等于相似块内所有像素新的相似性测度的和。
因此，此时的相似性度量公式变为： $R_{i,j}=\exp \left(-\frac{d_{N_i,N_j}}{\sigma^{2}}\right)$ 其中需要估计的参数有核宽度参数 $\sigma$ ，PCA降维保留的维度数 $d$ .

2.2 参数估计算法

首先要确定PCA分析选择图像的前 $d$ 维 $P_f = P_{1}, P_{2}, \ldots, P_{d}$ 中参数 $d$ 和RBF核中核参数 $\sigma$ 。PCA能够通过只保留最大的 $d$ 个特征向量并去除噪声部分，有效地缩减特征维度。大家普遍认为核宽度参数 $\sigma$ 是噪声标准差 $\sigma_n$ 的一个函数。噪声标准差需要噪声图像，根据PCA原理可知，获得噪声图像 $I_n$ 一种直观方法是取PCA处理剩余由噪声控制图像 $P_r$ 的的平均值。所以 $d$ 根据论文8中方法估计， $\sigma_n^2$ 由噪声图像的方差 $Var(I_n)$ 估计。这种噪声方差的估计策略完全依赖于图像，而不依赖额外的信息，从该意义上来说，这种估计方法是完全数据驱动的。
假设 $\sigma$ 的值是 $\sigma_n$ 的线性函数，由所选子空间 $d$ 和邻域大小 $\times l$ 共同表示的线性关系被认为是一种低精度估计。本文中使用论文13的方法来估计 $\sigma$ 的值， $\sigma$ 与噪声标准差 $\sigma_n$ 的关系可以写为： $\begin{aligned} \sigma &=h \times \sigma_{n} \\ h &=\sqrt{\frac{2 l^{2}}{\ln (1 / \gamma)}} \end{aligned}$
常量 $h$ 基于具有 $\sigma_n^2$ 噪声特征的 $I_n$ 的相同块之间的期望距离进行估计的，因此，对于 $l\times l$ 邻域大小，期望欧式距离的平方是 $2l^2\sigma_n^2$ .假设这样邻域之间的权重至少为 $\gamma$ ，然后可以使用第二个公式估计参数 $h$ 。参数 $\gamma(0\le \gamma \le 1)$ 是量化在一定噪声水平下两个相同邻域相似性的自由参数，其合理取值范围为0.6-0.9。

2.3 根据非局部上下文信息分类

空间上下文信息是准确分类的有效方法。本文中，利用NLM方法包含距离中心比较远的上下文信息。因此，对于给定的 $\hat{\omega}$ ,标签Y的最大后验概率为 $\hat{Y}=\arg \max _{Y \in \Omega^{n}} \sum_{i=1}^{n} \sum_{j \in S_{i}} w_{i, j}^{\prime} p\left(y_{j} | \widehat{\boldsymbol{\omega}}\right)$ 其中 $w_{i, j}^{\prime}=\frac{\exp \left(-d_{N_{i}, N_{j}} / \sigma^{2}\right)}{\sum_{j \in S_{i}} \exp \left(-d_{N_{i}, N_{j}} / \sigma^{2}\right)}$ $\hat{Y}$ 表示最大后验估计得到的标签/分类。核宽度参数 $\sigma$ 使用 $\gamma = 0.9$ 估计， $w_{i,j}$ 描述像素 $j$ 对于像素 $i$ 新的值的贡献，这里表示非局部特征向量 $p\left(y_{i} | \hat{\omega}\right)$ 和 $p\left(y_{j} | \hat{\omega}\right)$ 相似性的一个函数，更具体地权重 $w_{i,j}$ 在本文中是KL散度距离的函数，且随距离增大而减小。因此，与像素 $i$ 相似的非局部特征对像素 $i$ 的真实未知特征的估计会产生很大的影响，反之亦然。核宽度参数 $\sigma$ 的作用像是控制滤波平滑度。全局平均是指图像的每个特征都对像素 $i$ 的特征更新做了共享。但是为了缓解计算负担，搜索框 $S_i$ 一般限制在以像素 $i$ 为中心的一个比较小的窗口。因此，算法复杂度限制在 $O\left(n s^{2}\right)$ 而不是 $O\left(n ^{2}\right)$ ， $n$ 表示像素总数， $s^2$ 表示小的搜索框S中像素的数量 $s\times s$ 。
attention不就是这嘛……