Bootstrap

人工智能cv模块知识点大总结,你对哪个模块最掌握呢?

人工智能 CV 知识点总结

一、计算机视觉基础概念

  1. 计算机视觉定义:让00计算机像人类一样理解和解释图像、视频等视觉信息,涵盖图像获取、预处理、特征提取、识别等多个环节。
  1. 图像的表示:由像素组成,常见的有灰度图像(单通道,像素值 0 - 255 表示亮度)和彩色图像(如 RGB 模式,三个通道分别对应红、绿、蓝,每个通道像素值范围 0 - 255)。

二、图像预处理

  1. 灰度化:将彩色图像转换为灰度图像,常用的加权平均法,例如根据人眼对不同颜色敏感度,通过公式 计算灰度值。
  1. 滤波:
    • 均值滤波:用邻域内像素均值替代中心像素,去除噪声但会模糊边缘,核一般为 的矩阵(如 3×3),元素值全为 1 除以 。
    • 中值滤波:对邻域像素排序取中值作为中心像素值,有效去除椒盐噪声,同时较好保留边缘。
  1. 图像增强:
    • 对比度增强:通过拉伸像素值范围,如线性变换,将原图像像素值范围 映射到新范围 ,公式为 ,提升图像清晰度。
    • 直方图均衡化:使图像直方图分布均匀,增强整体对比度,提高图像视觉效果,它基于图像像素累计分布函数进行变换。

三、特征提取

  1. 传统特征:
    • Haar 特征:常用于人脸检测,由不同类型的矩形特征组合而成,如边缘特征、线性特征、中心环绕特征等,计算图像子区域像素和差值,具有简单快速的特点。
    • SIFT(尺度不变特征变换):能在不同尺度和旋转下提取稳定特征点,包括高斯差分金字塔构建、极值点检测、特征点方向分配、特征描述子生成等步骤,描述子具有较高的独特性和鲁棒性。
    • SURF(加速稳健特征):是 SIFT 的加速版,利用积分图像快速计算 Hessian 矩阵行列式近似值来检测特征点,在特征描述上也进行优化,提高计算效率。
  1. 基于深度学习的特征:
    • CNN(卷积神经网络):通过卷积层自动学习图像局部特征,不同卷积核提取不同特征,如边缘、纹理等;池化层降低特征图分辨率,减少计算量,常见有最大池化(取邻域最大值)、平均池化(取邻域平均值);全连接层整合特征用于分类等任务,预训练的 CNN 模型(如 VGG、ResNet)提取的特征在迁移学习中广泛应用。

四、目标检测

  1. 传统方法:
    • Viola - Jones 算法:基于 Haar 特征和 AdaBoost 分类器,通过大量正、负样本训练分类器,级联多个弱分类器构成强分类器,实现快速人脸检测,后续扩展到其他目标检测领域。
    • HOG(方向梯度直方图) + SVM:HOG 特征提取图像局部梯度方向信息,将图像划分为多个小单元,统计每个单元内梯度方向直方图,串联成特征向量,再用 SVM 进行分类,常用于行人检测等。
  1. 深度学习方法:
    • 两阶段检测:
      • R - CNN 系列:首先通过 Selective Search 等方法生成候选区域,然后对每个候选区域用 CNN 提取特征,最后用 SVM 分类及边界框回归,后续改进如 Fast R - CNN 将特征提取、分类、回归整合到一个网络,提高效率;Faster R - CNN 引入 RPN(区域提议网络),进一步加速候选区域生成,成为经典两阶段                                                                                                               检测框架。
    • 一阶段检测:
      • YOLO(You Only Look Once):将图像划分为 的网格,每个网格预测边界框及类别概率,直接输出目标位置和类别,速度快,实时性好,后续不断迭代改进(如 YOLOv3、YOLOv4)提升精度。
      • SSD(Single Shot MultiBox Detector):结合不同尺度特征图预测目标,使用多尺度的默认框,对小、中、大目标都有较好检测效果,兼顾速度与精度。

五、语义分割

  1. 基于阈值的分割:根据像素灰度值或其他特征设定阈值,将图像像素分为不同类别,简单快速但对复杂场景适应性差。
  1. 区域生长:从种子点开始,根据相似性准则(如灰度差、纹理相似等)不断合并相邻像素形成区域,能分割出具有相似特征的区域,但种子点选择和相似性准则设定较关键。
  1. 深度学习方法:
    • FCN(全卷积神经网络):将传统 CNN 最后的全连接层改为卷积层,输出与输入图像尺寸相同的特征图,通过上采样恢复分辨率,实现像素级分类;后续 U - Net 在 FCN 基础上结合编码器 - 解码器结构,编码器下采样提取特征,解码器上采样恢复细节,中间有跳跃连接融合不同层次特征,在医学图像分割等领域广泛应用。

六、实例分割

  1. Mask R - CNN:在 Faster R - CNN 基础上扩展,增加分支用于生成目标的掩码(mask),同时完成目标检测和实例分割任务,通过 ROI Align 层精确提取感兴趣区域特征,提升分割精度,在复杂场景下准确分割每个物体实例。

七、姿态估计

  1. 2D 姿态估计:
    • 基于关键点检测:利用 CNN 等模型检测人体关键关节点(如头部、肩部、肘部等)位置,通过关节点坐标组合反映人体姿态,常用数据集有 COCO 等,评估指标有 PCK(Percentage of Correct Keypoints)等。
    • 基于模板匹配:预先构建人体姿态模板库,将输入图像与模板对比,找到最匹配的姿态,计算复杂度较高,对姿态变化适应性有限。
  1. 3D 姿态估计:
    • 多视图几何方法:利用多个相机从不同角度拍摄图像,基于三角测量原理恢复 3D 关节点坐标,但需要精确的相机标定,设备成本高。
    • 基于深度学习单目方法:从单张图像直接预测 3D 姿态,模型学习图像特征到 3D 空间坐标的映射,面临深度信息缺失等挑战,近年来取得较大进展,如一些基于 Transformer 架构的方法能更好捕捉全局依赖关系辅助 3D 姿态估计。

八、模型评估指标

  1. 分类任务:
    • 准确率(Accuracy):正确分类样本数占总样本数比例, ,简单直观但受样本类别不平衡影响。
    • 召回率(Recall):真阳性样本数占实际阳性样本数比例, ,衡量模型对正样本的覆盖程度。
    • F1 值:综合考虑准确率和召回率, ,常用于平衡两者关系。
    • AUC(Area Under Curve):ROC 曲线(以假阳性率为横轴,真阳性率为纵轴)下面积,反映模型分类能力,越接近 1 越好。
  1. 检测任务:
    • mAP(mean Average Precision):对不同类别平均精度均值,先计算每个类别的 AP(Precision - Recall 曲线下面积),再求平均,能综合评估检测模型性能。
    • IoU(Intersection over Union):预测框与真实框交集面积除以并集面积,常用于衡量目标检测框定位准确性,如 IoU > 0.5 常作为判断检测正确阈值。
  1. 分割任务:
    • 像素准确率(Pixel Accuracy):预测正确像素数占总像素数比例。
    • 平均 IoU(Mean IoU):各类别 IoU 的平均值,衡量分割结果与真实标签一致性,反映分割精度。
;