机器学习——入门基础（神经网络）

文章目录

传送门，讲解到位：https://www.bilibili.com/video/BV1Mh411e7VU?p=7&share_source=copy_web

M-P神经元

M-P神经元是模拟生物行为的数学模型，接收n个输入，并且给各输入增加权重，计算加权和，然后和自身的阈值theta进行减法比较，最后经过激活函数处理(两种处理方式：减法结果<0—>抑制、减法结果>0—>激活)，然后输出，一般是到下一个神经元，可以类比想到生物学上的“突触”，数学模型如下：所以可以抽象成线性的模型

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PDkKxCx6-1642920551295)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20220122194320349.png)]

西瓜书内给出两个激活函数：1、阶跃函数；2、sigmoid函数，如下图：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UENrVyNt-1642920551297)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20220122194611784.png)]

感知机模型就是以上述阶跃函数为激活函数，那如果用Sigmoid函数就是对数几率回归

感知机

数学角度定义如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BXa6k5Is-1642920551297)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20220122195045210.png)]

几何角度来说，是给定了一个线性可分的数据集，感知机可以找到超平面对这个数据集划分、分类，超平面定义如下：理解的话可以从二维理解：两点成直线，给定(0,1),(1,0)，那方程就是X1+X2-1=0，显然w为（1，1），b为-1，做w的向量（1，1），必然垂直于该直线

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1ceJ252f-1642920551298)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20220122195649754.png)]

这里用统计的思想去学习，目前是为找到loss function，也就是损失函数，当然是想要损失Min

先随机初始化w和b，将全体的训练样本代入模型找出分错的样本，拿上面的阶跃函数，当w转置 x —theata≥0，模型分类值为yhat=1，但是样本的真实值是y=0，反正式子≤0，输出值为0，真实值为1，结合这两种分错的情况，下面公式自然成立

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-p3XpBtoN-1642920551298)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20220122200813803.png)]

目的很明确，要求上述损失函数最小值，这里我们可以转换上式，将theta加入w向量中，也就是多元线性回归，b加到w中，则公式变形如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jnVdweeu-1642920551298)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20220122201204788.png)]

了解梯度下降知识的传送门：https://www.bilibili.com/video/BV164411b7dx?p=9&share_source=copy_web

经由梯度下降变化，其实看完也应该知道就是求导，公式变幻如下，下图第二个公式n其实就是步长，为什么说不唯一呢？因为这里只单纯考虑了是否能分开，能将一个数据集分类的超平面不唯一，所以w不唯一

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MmTgJjMB-1642920551299)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20220122204830627.png)]

神经网络

感知机能力有限，只能针对线性可分数据集，但是多个神经元构成的神经网络能分线性不可分的数据集

简单介绍多层前馈网络，就是每层的神经元和下一层神经元相连，神经元之间不存在同层连接，也不存在跨层连接

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3t0D50RB-1642920551299)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20220122211010526.png)]

上述神经网络记为NN，xd表示d维向量，也就是x的d维---->y的l维，这里激活函数选用sigmoid，目前要完成的任务就是多输出回归任务，就是上图所示的任务，损失函数还是均方误差，具体如下图所示，yk表示真实值，yhatk表示该多层前馈网络预测值，那误差不就是下图所示,1/2是为了求导方便，这是单个样本的误差

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MuLLtlwP-1642920551300)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20220122212152381.png)]

BP算法

下图的E就是上式的误差Ek，n还是步长，但由于此函数不是凸函数，是较为复杂的非凸函数，所以很多情况下是局部极小值点

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Jax9PQ0z-1642920551300)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20220122212513855.png)]

解释一下最后求导的公式，其实也是和下面神经网络图有关，下表就是流线的走向，这也解释了最后的链式求导

初始值	输入层	隐层	输出层
xi	vih * xi	输入：vih * xi；计算：vih * xi—隐层阈值=bh；输出：wkj * bh	输入：wkj * bh；计算：wkj * bh—输出层阈值=yi

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KvvZI4qH-1642920551300)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20220122213130630.png)]

推导过程如下，最后的结果eh是令前面为eh，并不是有其他含义。γ和θ都是阈值：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UN7H0Adr-1642920551300)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20220122214215966.png)]

关于上述的推导过程，因为激活函数是sigmoid函数，sigmoid导数具体的推导过程如下，方便理解：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lErqeZ7c-1642920551301)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20220123134934046.png)]

梯度下降(标准、Mini-batch、随机)

传送门，讲解到位：https://www.bilibili.com/video/BV164411b7dx?p=103&share_source=copy_web

实则按照一句话理解思维：标准是加载全部的数据并计算、mini-batch是按批次加载计算、随机是一个个计算