目录
第四章 图像处理原理与应用
1 图像处理概览
■ 计算机视觉与数字图像处理
▲ 计算机视觉
人的视觉所感知的周围环境是三维结构,而计算机中的图像是二维的。计算机视觉就是研究如何让计算机像人一样“看”的科学。形象地说,就是给计算机安装上眼睛(照相机)和大脑(算法),让计算机能够感知环境。
▲ 图像处理的三个层次
◎ 低级图像处理内容(图像处理)
内容:主要对图象进行各种加工以改善图象的视觉效果、或突出有用信息,并为自动识别打基础,或通过编码以减少对其所需存储空间、传输时间或传输带宽的要求。
特点:输入是图像,输出也是图像,即图像之间进行变换。
◎ 中级图像处理(图像分析)
内容:主要对图像中感兴趣的目标进行检测(或分割)和测量,以获得它们的客观信息,从而建立对图像中目标的描述,是一个从图像到数值或符号的过程。
特点:输入是图像,输出是数据。
◎ 高级图像处理(图像理解)
内容:在中级图像处理的基础上,进一步研究图像中各目标的性质和它们之间相互的联系,并得出对图像内容含义的理解(对象识别)及对原来客观场景的解释(计算机视觉),从而指导和规划行动。
特点:输入是数据,输出是理解。
■ 计算机视觉的任务与应用
▲ 计算机视觉的任务–图像分类
图 像 分 类 ( Image Classification ) : 解 决“是什么?”的问题,即给定一张图片或一段视频判断里面包含什么类别的目标。
输入输出:
输入:图像。
输出:类别(不同类别以概率值呈现)。
▲ 计算机视觉的任务–目标检测
检测( Object Detection ):解决“是什么?在哪里?”的问题,即定位出这个目标的的位置并且知道目标物是什么。除了图像分类之外,目标检测要解决的核心问题是:
◎ 目标可能出现在图像的任何位置。
◎ 目标有各种不同的大小。
◎ 目标可能有各种不同的形状。
输入输出:
输入:图像。
输出:类别与边界框的位置。
▲ 计算机视觉的任务–图像分割
分割( Image Segmentation ):解决“每一个像素属于哪个目标物或场景”的问题。
语义分割( Semantic Segmentation )是指像素级的识别图像,即标注出图像中每个像素所属的对象类别。
实例分割( Instance Segmentation )是指从图像中识别物体的各个实例,并逐个将实例进行像素级标注的任务。
输入输出:
输入:图像。
输出:与输入图像同分辨率的带有各像素类别标签的分割图像。
▲ 计算机视觉的任务–图像生成
图像生成( Image Generation ):根据一张图片生成并修改部分区域的图片或者是全新的图片的任务。 GANs是最近几年非常热门的研究方向,而图像生成就是 GANs 的一大应用。
输入输出:
输入:真实图像与随机噪声。
输出:生成图像。
▲ 计算机视觉的任务–超分辨率
超分辨率( Super Resolution ):从低分辨率对应物估计高分辨率图像的过程,以及不同放大倍数下图像特征的预测。最初的超分辨率是通过 Bicubic-interpolation 和最近邻等较为简单的技术。
输入输出:
输入:低分辨率图像。
输出:高分辨率图像。
▲ 计算机视觉的任务–风格迁移
风格迁移( Style Migration ):将一个领域或者几张图片的风格应用到其他领域或者图片上。比如将抽象派的风格应用到写实派的图片上。
输入输出:
输入:原图像与风格图像。
输出:迁移后的图像。
▲ 计算机视觉的任务–图像修复
图像修复 (Image Inpainting) :修复图像中缺失的地方,比如可以用于修复一些老的有损坏的黑白照片和影片。通常会采用常用的数据集,然后人为制造图片中需要修复的地方。
输入输出:
输入:损坏图像。
输出:修复图像。
▲ 计算机视觉的应用
场景分析、智能相册、疫情防控等。
■ 数字图像处理基础
▲ 人眼图像的形成
人的眼睛近似为一个球体。物体的光线通过角膜和晶状体的折射,在视网膜上形成倒立缩小的实像。视网膜上分布着用于光线接收的神经细胞,分为锥状体和杆状体。
每只眼睛约有 600 万到 700 万个锥状体,其对颜色灵敏度很高,负责亮光视觉。
每只眼睛约有 7500 万到 15000 万杆状体,其没有颜色感觉,负责暗视觉。
▲ 图像数字化
◎ 采样
采样:将空间上连续的图像变化为离散的点。
图像分辨率:采样后得到离散图像的尺寸。分辨率由宽( Width )和高( Height )两个参数构成。宽表示水平方向的细节数,高表示垂直方向的细节数。
采样与分辨率的关系:采样间隔越小,所得图像像素数越多,空间分辨率高,图像质量好,但数据量大。
例如:一幅分辨率为 640*480 的图像,表示这幅图像由 640*480=307200 个点组成。
◎ 量化
量化:将采样点的传感器信号转换成离散的整数值。
灰度级( Gray Level Scale ):量化后得到离散图像的每个采样点的变化范围。通常用 m级或者n位来表示灰度级,一般是 2 的整数次幂。图像数据的灰度级越多视觉效果就越好,计算机中最常用的是 8 位图像。
量化与灰度级的关系:量化等级越多,所得图像层次越丰富,灰度分辨率高,图像质量好,但数据量大。l
例如:一幅 8 位的图像,每个采样点从最暗到最亮,可以分辨 256 个级别。
▲ 图像表达-灰度图
对于计算机来说,图像是一个由数字组成的巨大的矩阵。灰度图,都只有一个通道,单通道记录了像素点的亮度信息,每个数字都是在范围 0-255 之间的整型, 0 表示最暗(黑色), 255 表示最亮(白色)。
▲ 图像表达-RGB
对于彩色图片,更普遍的表达方式是 RGB 颜色模型。 RGB 颜色空间中每个像素点有三个维度,分别记录在红( Red )、绿( Green )、蓝( Blue )三原色分量上的亮度。
▲ 图像表达-HSV
HSV 也是常用的颜色空间之一,该颜色空间可以用一个圆锥来表示。“ H ”表示色相( Hue ),颜色的相位角,取值范围是 0 到360 度。“ S ”表示颜色饱和度( Saturation ),取值范围是从 0 到 1 ,它表示成所选颜色的纯度和该颜色最大的纯度之间的比率。“ V ”表示色彩的明亮程度( Value ),取值范围是从 0 到 1 。
与 HSV 类似的颜色空间还有:
HSL ( Hue Saturation Lightness )
HIS ( Hue Saturation Intensity )
▲ 图像表达- YUV、CMYK、Lab
◎ YUV
YUV 颜色空间由亮度信号“ Y ”和两个色差信号“ R-Y ”、“ B-Y ” 组成。 YUV 色彩空间的重要性是它的亮度信号“ Y ”和色度信号“ U ”、“ V ”是分离的。如果只有信号分量“ Y ” 就可以表示黑白灰度图。 YUV 颜色空间主要用于图像压缩及传输。
◎ CMYK
CMYK 颜色空间应用于印刷工业,印刷业通过青(“ C ”)、品红(“ M ”)、黄(“ Y ”)、黑(“ K ”)四色油墨的不同网点面积率的叠印来表现丰富多彩的颜色和阶调。
◎ Lab
Lab 的色彩空间要比 RGB 模式和 CMYK 模式的色彩空间大,自然界中任何颜色都可以在 Lab 空间中表达出来。
▲ 灰度化
为了方便计算,在不关心颜色的图像处理场景中,经常将多通道的彩色图像转为单通道的灰度图像,这个过程称为灰度化。对于 RGB 图像,常见的灰度化思路有三种:
①最大值法: I = max(R, G, B)
②平均值法:I = (R + G + B)/3
③加权平均值法: I = 0.11 ∗B + 0.59 ∗ G + 0.30 ∗ R
▲ 颜色空间转换
在计算机视觉中,尤其是颜色识别相关的算法设计中,各种颜色空间经常混合使用。RGB 、 HSV 、 YUV 等常见颜色空间可以通过计算公式实现相互转化,这个过程叫做颜色空间转换。颜色变换的计算公式比较复杂,通常图像处理库会提供颜色空间转换的 API 方便用户调用。
▲ 数字化图像表示-矩阵
像素( Pixel ):数字图像中的每一个采样点。像素的数据的维度被称为通道( Channel )。
分辨率为 N ∗ M的图像的数字化表示:
▲ 像素间的邻接关系
像素可以由它在图像中的位置坐标( x,y )来描述。根据坐标,像素之间具备一些空间位置关系。
▲ 像素间的连接关系
如果两个像素不仅空间位置上邻接,并且其像素值也符合相似准则,我们称这两个像素是连接的。
像素值的相似准则:指像素的灰度值相等,或者像素值都在一个灰度集合V中。
▲ 像素间的连通关系
像素连通可以看做像素连接的一种推广。如果像素p和像素t可以通过两两连接的像素进行关联,则 p和 t 是连通的。所有关联的像素称为p、t 之间的通路。
例如: p 和 q 是连接的,q 和 r是连接的, r 和 s 是连接的, s 和 t 是连接的,则 p 和 t 是连通的, pqrst是一条通路。
按照连接方式,连通分为 4- 连通和 8- 连通。上图中pqrst是 8- 连通,但不是 4- 连通。
▲ 连通域
在一副图像中,一个像素集合内部两两连通,并和集合外部的像素都不连通,这样的像素集合被称为连通域。根据连接的不同定义,连通域同样分为 4- 连通域, 8- 连通域。
连通域的边界称为区域边界或轮廓。
▲ 距离度量
说明:本文内容来源于网络,仅作为学习用途,如有侵权,请联系作者删除。