【机器学习】18. 反向传播 Backpropagation algorithm, 学习率，动量Momenetum, Xavier，梯度消失

1. 定义

对于每一个训练样本传入网络, 直到输出层, 这个过程称为正向传播, 将其输出与标签进行比较, 计算误差, 根据误差, 从输出层到输入层逐级反向传播, 调整每个神经元的权重, 以减小误差, 这个过程就是反向传播.

$w^{new}_{pq} = w^{old}_{pq}+ Δw_{pq}$

$Δw = η⋅δ_q⋅o_p$

在这里插入图片描述
transfer function

学习率η=0.9

首先前向传播得到结果
$z_4 = 1*0.2 + 0*0.4 + 1*(-0.5) - 0.4 = -0.7$ $o_4 = 1/(1+e^{-x}) = 1/(1+e^{0.7}) = 0.332$
$z_5 = 1*(-0.3) + 0*0.1 + 1*0.2 +0.2 = 0.1$ $o_5 = 1/(1+e^{-x}) = 1/(1+e^{-0.1}) = 0.525$
$z_6 = 0.332*(-0.3) + 0.525*(-0.2) +0.1 = -0.0996-0.105+0.1 = -0.1046$ $o_6 = 1/(1+e^{-x}) = 1/(1+e^{0.105}) = 0.474$
接下来反向传播更新权重
$δ_6 = (t_6-o_6)f'(z_6) = (t_6-o_6)f(z_6)(1-f(z_6)) = (1-0.474) * 0.474*(1-0.474) = 0.1311$
$Δw_{46} = η *δ_6 *o4$
$w_{46}(new) = w_{46}(old)+Δw_{46}$
$b_6(new) = b_6(old) + Δb_6$

太多隐藏层会过拟合，太少会欠拟合

学习率可以是固定的, 也可以随时间变化.
在这里插入图片描述

动量, momentum, 通过在权重更新公式中引入一个额外的动量项, 使得当前的权重更新依赖于之前的更新, 从而减少振荡并允许使用更大的学习率
在这里插入图片描述

标准的做法: 从-1到1之间选择小的随机数
Xavier：权重从一个正态分布中产生
$\sqrt{\frac{2}{N_{in}+N_{out}}}$
in 和 out 分别是当前层输入神经元数量和输出神经元数量。

o非常小导致δ非常小，权重更新也非常小

解决方法：使用其他激活功能（LReLu）