数字图像处理学习笔记（一）

文章目录

前言
第一章绪论
第二章数字图像基础

前言

个人的数字图像处理这门课程的学习笔记。使用的书籍是《数字图像处理》第三版_冈萨雷斯。主要是学习过程中遇到的相关的概念的摘抄和一点点的个人理解（暂时可以忽略不计）。

第一章绪论

引言
数字图像处理方法的研究主要目的：①改善图示信息便于人们解释，对于一些模糊不清图片，通过对图片信息处理加工，便于我们的观察。②将图像数据进行处理，便于机器存储以及后续的操作。

1.1 什么是数字图像处理

数字图像：

一副图像可以定义一个二维函数f(x,y)，x和y是平面坐标，任何一处坐标(x,y)处对应的幅值称为图像在该点出的强度或灰度。当x,和y是和灰度值是有限的离散数值时，我们称该图像为数字图像。

数字图像处理：

指借助计算机来处理数字图像。

像素：

组成数字图像的一个点。

人类能看到的图像仅限于电磁波谱的视觉波段，机器可以覆盖从伽马射线到无线电波的整个电磁波谱。对于图像的认识不能仅停留在我们肉眼能看到的事物上。

数字图像处理涉及领域很宽泛，对于图像处理的具体范围划分没有一致的看法。

图像处理的三种典型计算处理：

低级处理：降噪、对比度增强、图像锐化。以输入输出都是图像为特征。
中级处理：对图像进行分割，包括对图像大小的分割，也包含了对目标的风格，减少目标物的描述。以输入为图像但输出为从输入图片提取特征为特点。
高级处理：识别目标的总体，以及实现与视觉相关的认知功能。

1.2 数字图像处理起源

数字图像处理的诞生可追溯到20世纪60年代初，功能强大到足以执行
有意义图像处理任	务的计算机出现。最早是使用在空间探测器发回图片的处理，
以及医学成像、地球资源遥感监测和天文等领域。

1.3 数字图像处理应用

今天几乎不存在与数字图像处理无关的技术领域。阐述数字图像处理应用范围的一种最简方法是根据信息源来分类。
最主要的图像能源是电磁能谱，其他主要图像能源包括声波、超声波和电子。
网上找到的光谱图
最常见的电磁波谱辐射成像及其用途有：

在这片描述

1.4 数字图像处理基本内容

在这里插入图片描述

1、图像获取：数字图像处理的第一步处理。通常，图像获取阶段包括图像预处理，譬如图像缩放。
2、图像增强：对一幅图像进行操作，使其结果在特定应用中比原始图像更适合进行处理。不存在图像增强方法的通用理论，图像增强方法多种多样，特殊情况特殊对待。
3、图像复原：改进图像外观的处理领域。与图像增强不同，图像增强是主观的，而图像复原是客观的；复原技术倾向于以图像退化的数学或概率模型为基础。而增强以什么是好的增强效果这种主观偏爱为基础。
4、彩色图像处理：对带有色彩图像进行处理。涵盖许多彩色模型和数字域彩色处理的基本概念。彩色也是图像中提取感兴趣区域的基础。
5、小波与多分辨处理：以不同分辨率来描述图像的基础。本书中为图像数据压缩和金字塔表示使用了小波，此时图像被成功地细分为较小的区域。
6、压缩：指的是减少图像存储量或降低图像带宽的处理。
7、形态学处理：涉及提取图像形状方面的分量。
8、分割：将一幅图像划分为其组成部分或目标。通常，分割越准确，识别越成功。
9、表示与描述：把原始数据转换为适合计算机进行后续处理的形式的一部分。描述又称为特征选择，它涉及提取特征，可得到某些感兴趣的定量信息，或是区分一组目标与其他目标的基础。
10、目标识别：是基于目标的描述给该目标赋予标志的过程。如车辆识别过程。

1.5 图像处理系统的组成

在这里插入图片描述

1、感知部分：①物理设备，能够清晰成像。②数字化器，将物理设备成的像转换为数字数据。
2、专用图像处理硬件：通常由数字化器与执行其他原始操作的硬件组成。如使用ALU(算数逻辑单元)对图像并行执行算术与逻辑运算。这种类型硬件有时称为前端子系统，显著特点就是快。该单元执行要求快速数据吞吐的功能是一般主机不能达到的。
3、计算机：该计算机是指通用计算机，范围从PC到超级计算机。
4、图像处理软件：由执行特定任务的专用模块组成。
5、大量存储能力：分为①处理期间的短期存储，使用计算机内存或者专用存储板也叫帧缓存。②可快速调用的在线存储，使用磁盘或者光介质存储。③档案存储，特点是大容量但不频繁存储。
6、图像显示器：主要指彩色电视监视器，监视器由图像和图形显示卡的输出驱动，是计算机系统的一部分，应满足显示要求。
7、硬拷贝设备：包括打印机、相机、喷墨装置和数字单元，用于记录图像。
8、网络：目前是计算机系统的默认功能。在图像传输中主要考虑传输带宽。

1.6 小结

本章主要介绍数字图像处理的来源，意义及该技术当前及今后的应用。以及该技术涉及的内容。但从整体上对数字图像处理有了清晰的印象。

第二章数字图像基础

引言

2.1视觉感知要素

人类视觉感知的重要性

数字图像处理建立在数字和概率公式表示的基础之上，但人的主观视觉判断会在我么选择一种技术而不选择另一种时，起到核心作用。

人类与电子成像设备的对比

从自然分辨能力的角度对比人眼与一个中等分辨率的电荷耦合元件成像芯片，二者具有的元素数量相当。当前电子成像传感器与人眼的细节分辨能力是可以进行比较的。

人类与电子成像设备的成像原理

普通照相机镜头是有固定的焦距，改变镜头与成像平面的距离实现聚焦以及成像。人眼中晶状体与视网膜距离是固定的，所以通过调节晶状体形状改变焦距实现聚焦。将图像聚焦到视网膜中央凹区域。视网膜中的光接收器（锥状体和杆状体）对刺激产生感知，将辐射能转变为电脉冲，由大脑解码产生图像。

眼睛的亮度适应和辨别

数字图像作为离散的灰度集来显示，所以眼睛对不同亮度级别的辨别能力在图像显示中是一个重要的考虑因素。视觉系统的当前灵敏度级别称为亮度适应级别，不同的级别对应着人眼所能感知的主观亮度范围，超过这一范围的刺激都被感知为黑色。

2.2光和电磁波谱

电磁波谱描述公式

波长（λ）与频率（v）关系：λ= c/v c为光速2.998*108 m/s
各个分量的能量公式： E= hv h为普朗克常数，波长单位是米（m），频率为赫兹（Hz），能量单位为电子伏特。

光子定义

电磁波可以看做是以波长λ传播的正弦波，或者可以看成事没有质量的粒子流，每个粒子以波的模式以光速传播和移动。每个无质量的粒子包含一定的（一束能量），每束能量称为一个光子。

能量公式对于伽马射线的危害解释

由能量公式与波长与频率公式可知，光子所携带能量与频率成正比，从光谱图可知，伽马射线对活体危害较其他波最大。

人眼识别色彩的原因

人感受物体的颜色由物体反射光的性质决定。以所有可见波长相对平衡地反射光的物体，我们看到便是白色。绿色物体反射波长范围为 500-570nm 的光，而吸收其他波长的大部分能量。其他颜色是同样的。

灰度级，灰度图像定义

没有颜色的光称为单色光或无色光。单色光的唯一属性是它的强度或大小。因为感知单色光的强度从黑色到灰色变化，最后到白色，灰度级一词通常用来表示单色光的强度。
从黑到白的单色光的度量值范围通常称为灰度级．而单色图像常称为灰度图像。

描述彩色光源的质量的基本量

发光强度：从光源流出能量的总量,通常用瓦特（W）来度量。
光通量：观察者从光源感受到的能量，用流明数（Im）度量。如，从远红外光谱范围的光源发射出的光具有实际意义的能量，但观察者却很难感知到它。它的光通量儿乎是零。
亮度：光感知的主观描绘子，它实际上不能度量。它具体体现了强度的无色概念，是描述彩色感觉的参数之一。

在任意波段成像：

原理上，如果可以开发出一种传感器来检测由一种电磁波谐发射的能量，那么我们就可以在该波段上对感兴趣的事件成像。但要注意的一点是，要求“看到” 一个物体的电磁波的波长必须小于等于物体的尺寸。

2.3图像感知获取

在这里插入图片描述

图像产生原理：

多数图像都是由“照射”源和形成图像的“场景”元素对光能的反射或吸收而产生的。

照射能量变换为数字图像

原理：将输入电能和对特殊类型检测能源敏感的传感器材料相组合，把输入能源转变为电压。输出电压波形是传感器的响应，通过把传感器响应数字化，从每一个传感器到一个数字量。

单个传感器获取图像：
在这里插入图片描述

条带传感器获取图像：

注意！传感器的输出必须由重建算法处理．重建算法的目的是把感知数据转换为有意义的剖面图像。

使用传感器阵列获取图像：
在这里插入图片描述
阵列形式排列的传感器是数组摄像机中排列的主要方式。

简单图像形成模型
用二维函数f(x, y)表示图像，在坐标(x, y)处，f的值或幅度是一个正的标量，其物理意义由图像源决定。
函数f(x, y)可由两个分量来表征：①入射到观察场景的光源总量，即入射分量i(x, y)；②场景中物体反射光的总量，即反射分量r(x, y)；
两个函数作为一个乘积合并形成f(x, y），即f(x, y) = i(x, y)r(x, y)。

2.4图像取样和量化

为了产生一幅数字图像，需要把连续的感知数据转换为数字形式。这种转换包括两种处理：取样和量化。

取样和量化的概念：

一幅图像的 x 和 y 坐标及幅度可能都是连续的。为将它转换为数字形式，必锁在坐标上和幅度上都进行取样操作。对坐标值进行数字化称为取样，对幅值数字化称为量化。
在这里插入图片描述
数字图像的质量在很大程度上取决于取样和量化中所用的样本数和灰度级。

数字图像表示：

函数图：用两个坐标轴决定空间位置，第三个坐标是以两个空间变量 x 和 y 为函数的 f（灰度）值。
图像显示：用两个坐标轴决定空间位置，每个点的灰度与该点处的f值成正比。
矩阵表示：将f(x,y）的数值简单地显示为一个阵列（矩阵）。该矩阵中的每个元素称为图像单元、图像元素或像素。
在这里插入图片描述
图像显示允许我们快速地观察结果。数值阵列用于处理和算法开发。二者使用较多。

数字图像的原点位于左上角，其中正x轴向下延伸，正y轴向右延伸。
定义原因：①图像显示扫描大都是从左上角开始的，然后一次向下移动一行。②矩阵的第一个元素按惯例应在阵列的左上角。
此外这样定义符合标准的右手笛卡儿坐标系统。因此将f(x, y)的原点选择在左上角数学上行得通。

取样和量化的数学术语表达：

令 Z 和 R 分别表示整数集和实数集。取样处理可看成是把 xy 平面分为一个网格的过程，网格中每个单元的中心的坐标是筒卡儿积 Z2中的一对元素。Z2是所有有序元素对（Zi , Zj）的集合, Zi,Zj是 Z 中的整数。因此，如果（x,y）是 z2 中的整数，且f是把灰度值(即实数集R中的一个实数）赋给每个特定坐标对（x,y）的一个函数。则 f(x,y) 就是一幅数字图像。

灰度值相关取值：

数字化过程中出于处理、存储和取样的硬件考虑，灰度值典型的取值是2的整数次幂。
对于一副大小为M * N，灰度级L = 2k的数字图像，所需存储空间为b = M * N * k。
即每个像素的灰度级为2k，则有k比特空间，共M * N个像素点，故所需空间b的计算如上。

图像系统的动态范围
定义为系统中最大可度量灰度与最小可检测灰度之比。作为一条规则，上限取决于饱和度，下限取决于噪声。

空间分辨率：

空间分辨率是图像中可辨别的最小细节，最通用度量为每单位距离线对数和每单位距离点数（像素数）。
假设我们用交替的黑色和白色垂直线来构造一幅图形，其中线宽为 W个单位（W 可以小于 1 ）。线对的宽度就是 2W，每单位距离有 1/（2W）个线对。例如，如果一条线的宽度是 0. 1 mm，每单位距离（mm）就有5个线对。

广泛使用的图像分辨率：定义是每单位距离可分辨的最大线对数量（譬如每毫米 100 个线对）。
每单位距离点数：印刷和出版业中常用的图像分辨率的度量，使用每英寸点数（dpi）表示。

空间分辨率的度量必须针对空间单位来规定才有意义。图像大小本身并不会告诉我们全部内容。如果没有规定图像包含的空间维数，那么我们说一幅图像的分辨率为1024 × 1024 像索是没有意义的。尺寸本身只是在图像容量问做比较时才有帮助。

灰度分辨率：指在灰度级中可分辨的最小变化。灰度级数通常是2的整数次幂。最通用的数是8比特。

内插：

基本图像重取样方法，用已知数据来估计未知位置的数值的处理。
最邻近内插法：将原图像中最近邻的灰度赋给每个新位置。缺点：产生直边缘的严重失真。

双线性内插法：在该方法中，用 4 个最近邻去估计给定位置的灰度。但该方法不是一种线性内捅方法。赋值公式为：v(x, y) ＝ αx + by+cxy ＋ d。缺点：计算量增加。

双三次内插法：它包括 16 个最近邻点。赋值公式为：
在这里插入图片描述
缺点：复杂度高。优点：细节保持方面比双线性内插好。

2.5像素间的一些基本关系

相邻像素：

位于坐标(x, y)的一个像素p有4个水平和垂直的相邻像素，即上下左右相邻四个，这个像素集称为p的4邻域。用N4（p）表示。
p的4个对角邻像素表示为ND（p）。
4邻域和对角邻域合成一起称为p的8邻域，表示为N8（p）。

令V是用于定义邻接性的灰度值集合。相关的三种类型的邻接：
4邻接：若q在p的4邻域中，具有V中数值的两个像素p和q是4邻接的。
8邻接：若q在p的8邻域中，具有V中数值的两个像素p和q是8邻接的。
m邻接（混合邻接）：若q在p的4邻域中，或q在p的对角邻域中，且p的4邻域和q的4邻域的交集中没有来自V中数值的像素，则具有V中数值的两个像素p和q是m邻接的。

连通性：

令S是图像中的一个像素子集。如果S的全部像素之间存在一个通路，则可以说两个像索 p和q在S中是连通的。对于S中的任何像素p，S中连通到该像素的像素集称为S的连通分量。如果S仅有一个连通分量，则集合S称为连通集。

区域：

令 R 是图像中的一个像絮子集。如果 R 是连通集，则称 R 为一个区域。两个区域．如果它们联合形成一个连通集，则区域Ri和 Rj 称为邻接区域。不邻接的区域称为不连接区域。在谈到区域时，我们考虑的是4邻接和8邻接。为使我们的定义有意义，必须指定邻接的类型。

边界：

一个区域的边界是该区域中至少有一个背景邻点的像素集合。这里再强调一下，我们必领指定用于定义邻接的连通性。上述定义也称为内边界，外边界对应于背景边界。

距离度量：

对于像素点p(x, y), q(s, t), z(v, w)若满足下列条件，则D为距离度量函数或度量。
① D(p, q) ≥ 0，【（D(p, q) = 0，当且仅当p = q】
② D(p, q) = D(q, p)
③ D(p, z) ≤ D(p, q) + D(q, z)
p和q间的距离：
欧氏距离（De）：距点(x, y)的距离小于等于某个值r的像素，是中心在(x, y)且半径为r的圆平面。
数学公式：
在这里插入图片描述
街区距离（D4）：距点(x, y)的街区距离小于等于某个值r的像素，是中心在(x, y)的菱形。
数学公式：

棋盘距离（D8）：距点(x, y)的棋盘距离小于等于某个值r的像素形成中心在(x, y)的方形。
数学公式：

2.6数字图像处理常见的数学工具

阵列操作：

阵列相乘即为图像对应矩阵表示的矩阵对应相乘，而不是矩阵相乘的运算。图像相除也意味着对应像素之间进行相除。

线性操作与非线性操作：

线性操作指输入的和与分别对输入进行操作在求和得到的结果相同。

算数操作：

图像间的算术操作是阵列操作，在相应的像素对之间执行。
加操作是连续积分的离散形式，通过取平均可以起到降噪的目的。
图像相减经常用于增强图像之间的差。
图像相乘（或相除）的一种重要应用是阴影校正。

集合和逻辑操作

灰度值的并集操作和交集操作通常分别定义为相应像素对的最大和最小，而补集操作定义为常数与图像中每个像素的灰度间的两两之差。

逻辐操作：
处理二值图像时，OR、AND和NOT逻辑操作就是指普通的并、交和求补操作，其中“逻辑” 一词来自逻辑理论，在逻辑理论中，1代表真，0代表假。

模糊集合：理论使用隶属度函数来实现这种概念，该函数在数值1（定义为年轻）和 0（定义为非年轻）之间逐步过渡。使用模糊集合，我们可以声明一个人的年轻度为 50% （年轻和非年轻过渡的中间）。

空间操作：

①单像素操作：数字图像中执行的最简单的操作就是以灰度为基础改变单个像素的值。这类处理可以用一个形如下式的变换函数T来描述：s = T (z)。 z 是原图像中像素的灰度， s 是处理后的图像中相应像素的（映射）灰度

②邻域操作：令 Sxy 代表图像 f中以任意一点（x,y）为中心的一个邻域的坐标集。领域处理在输出图像g中的相同坐标处生成一个相应的像素，该像素的值由输入图像中坐标在Sxy内的像素经指定操作决定。这种类型的处理可消除小的细节，并在图像中相应的大区域实施“斑点”补偿。
③几何空间变换：几何变换改进图像中像素间的空间关系。这些变换通常称为橡皮膜变换，因为它们可看成是在一块橡皮膜上印刷一幅图像，然后根据预定的一组规则拉伸该薄膜。在数字图像处理中，几何变换由两个基本操作组成： ①坐标的空间变换；②灰度内插，即对空间变换后的像素赋灰皮值。坐标变换可由下式表示：(x, y) = T{ (v, w)) 。（v, w）是原图像中像素的坐标，（x，y）是变换后图像中像素的坐标。最常用的空间坐标变换之一是仿射变换（Wolberg[1990］）．其一般形式如下：
在这里插入图片描述

向量与矩阵操作：

多光谱图像处理是使用向盘和矩阵操作的典型领域。

图像变换：

变换输入图像来表达图像处理任务，在变换域执行指定的任务，之后再用反变换返回到空间域。
在这里插入图片描述

概率方法

在开发图像处理算法中, 利用概率度量推导灰度变换算法, 使用概率和炬阵公式开发图像复原算法，用概率进行图像分割，用概率描述纹理，以概率公式为基础，导出最佳目标识别技术。

2.7小结

本章内容为后续讨论提供了主要的背景知识。提供了人眼感知图像信息能力的一个基本概念。大体介绍了图像增强技术的基础，介绍的取样和内插的概念，基于像素邻域处理技术的基本组成部分等，关于图像处理的基础部分。使对数字图像处理技术的基础有了总体的认识。最后一节介绍的数字图像处理技术涉及到的数学工具，会贯穿数字图像处理的整个过程。绪论介绍的是数字图像处理的相关的整体结构，本章则是介绍了具体的数字图像处理的背景知识和涉及到的工具。