今天是卷积神经网络在图像识别技术中的应用和发展。课堂总结:
1.全连接层:
多层感知机在处理图像数据时,需要将图像展平成一维向量,忽略了图像的空间结构信息。
使用MLP进行猫狗分类时,参数量巨大,远超过实际需求。
2. 卷积神经网络:
使用卷神经网络可以大大降低参数量:共享参数机制,多种池化方法。
两个基本原则:平移不变性和局部性。
3. 卷积层:
卷积层将输入和卷积核进行交叉相关,加上偏移后得到输出
卷积核和偏移是可学习的参数,卷积核的大小是超参数。
4.填充和步幅:
填充:在输入周围添加额外的行/列。
步幅:是指行/列的滑动步长。
填充和步幅可以改变输出的高度和宽度填充在输入周围添加额外的行/列,增加输出的高度和宽度步幅是每次滑动核窗口时的行/列的步长,可以成倍的减少输出形状填充和步幅可用于有效地调整数据的维度。
5.多个输入和输出通道:
彩色图像可能有RGB三个通道,转换为灰度会丢失信息。
每个通道都有一个卷积核,结果是所有通道卷积结果的和 。
6. 池化层:
- 最大池化层和平均池化层用于降维和特征提取。
7.LeNet架构:
LeNet-5由卷积编码器和全连接层密集块组成,用于手写数字识别。
• 卷积编码器:由两个卷积层组成;• 全连接层密集块:由三个全连接层组成;每个卷积层使用5×5卷积核和一个sigmoid激活函数。
8 .学习表征:
浅层学习:不涉及特征学习,其特征主要靠人工经验或特征转换方法来抽取
表示学习:如果有一种算法可以自动地学习出有效的特征,并提高最终机器学习模型的性能,那么这种学习就可以叫作表示学习。
通常需要从底层特征开始,经过多步非线性转换才能得到。通过构建具有一定“深度”的模型,可以让模型来自动学习好的特征表示(从底层特征,到中层特征,再到高层特征),从而最终提升预测或识别的准确性
9 .视觉分层理论:
视觉分层理论:从底层到高层的不断抽象
浅层卷积核提取边缘、颜色等底层特征。
中层卷积核提取条纹、形状等中层纹理特征。
高层卷积核提取眼睛、轮胎等高层语义特征。
10. AlexNet:
AlexNet在2012年ImageNet竞赛中获胜,比LeNet更深更大。
主要改进包括使用ReLU激活函数、丢弃法、计算机视觉的范式改变。
AlexNet由五个卷积层、两个全连接隐藏层和一个全连接输出层组成。
AlexNet比相对较小的LeNet5要深得多。 AlexNet使用ReLU而不是sigmoid作为其激活函数。
将激活函数从 sigmoid 更改为 ReLu(减缓梯度消失)在两个隐含层之后应用丢弃法(更好的稳定性 / 正则化)数据增强。
关于Alexnet总结:AlexNet的架构与LeNet相似,但使用了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。• 今天,AlexNet已经被更有效的架构所超越,但它是从浅层网络到深层网络的关键一步。• 新加入了Dropout、ReLU、最大池化层和数据增强。
11 .VGG网络:
架构:VGG网络通过重复使用卷积块构建深度卷积神经网络。
- VGG-16和VGG-19是常见的架构,使用3x3卷积核和2x2最大池化层。
12 . 发展历程:
LeNet(1995)
2卷积层+池化层
2隐含层
AlexNet
更大更深的LeNet
ReLu激活,丢弃法,预处理
VGG
更大更深的AlexNet(重复的VGG块)