深度学习——激活函数ReLu、LReLu、PReLu原理解析

简介

由于项目需要，需要了解msra 权重初始化方法原理，正好Kaiming 大神这篇论文提出了PReLu。本博客主要介绍PReLu。文中两个创新点是使用PReLu和msra初始化后，在I ImageNet 2012 classification dataset上，达到top5=4.94%,超越了人类识别水平。

激活函数主要来做非线性变换，目前我知道激活函数有20多种，CV领域主要用到是sigmoid、ReLu系列。

ReLu公式
$f(y_i)=\left\{ \begin{aligned} y_i & & {if, \quad y_i >0 } \\ 0 & & {if ,\quad y_i \leq0 } \\ \end{aligned} \qquad(1)\right.$
Leaky ReLu(LReLu)公式
$f(y_i)=\left\{ \begin{aligned} y_i & & {if, \quad y_i >0 } \\ 0.01*y_i & & {if ,\quad y_i \leq0 } \\ \end{aligned} \qquad(2)\right.$
PReLu公式
$f(y_i)=\left\{ \begin{aligned} y_i & & {if, \quad y_i >0 } \\ a_i * y_i & & {if ,\quad y_i \leq0 } \\ \end{aligned} \qquad(3)\right.$
The motivation of LReLU is to avoid zero gradients， PReLu是为了防止ReLu在小于0的情况下，梯度为0。根据文中作者介绍，LReLu相对与ReLu对模型影响相差不大。故作者提出了PReLu,通过学习 $a_i$ ，让模型更加完美。其实 $PReLu= ReLu+a_i *min(0,y_i)$
当 $a_i$ = 0.01时候，等于LReLu.
$a_i$ 中的 $i$ 是指 $i^{th}$ channel的参数， $y_i$ 是指 $i^{th}$ feature map.

来自上一层的delta为 $\delta$ ，求 $a_i$ 梯度，根据 chain rule
当一个层中a_i每个通道不共享时候
$\frac{\partial \delta}{\partial a_i } = \sum_{i=1}^{w*h}\frac{\partial \delta}{\partial f(y_i)} \frac{\partial f(y_i)}{\partial a_i} = \sum_{i=1}^{w*h}\frac{\partial \delta}{\partial f(y_i)} \left\{ \begin{aligned} 0 & & {if, \quad y_i >0 } \\ y_i & & {if ,\quad y_i \leq0 } \\ \end{aligned} \qquad(4)\right.$
当一个层中只要一个a时，也就是所有通道共享。
$\frac{\partial \delta}{\partial a_i } = \sum_{j=1}^{channel}\sum_{i=1}^{w*h}\frac{\partial \delta}{\partial f(y_i)} \frac{\partial f(y_i)}{\partial a_i} = \sum_{j=1}^{channel}\sum_{i=1}^{w*h}\frac{\partial \delta}{\partial f(y_i)} \left\{ \begin{aligned} 0 & & {if, \quad y_i >0 } \\ y_i & & {if ,\quad y_i \leq0 } \\ \end{aligned} \qquad(5)\right.$
update $a_i$
adopt the momentum method when updating ai
$\varDelta a_i = u\varDelta a_i+\varepsilon \frac{\partial \delta}{\partial a_i}\qquad(6)$
$u$ momentum， $\varepsilon$ 代表学习速率。use ai = 0:25 as the initialization
throughout this pape

文中主要对 $a$ 做了两种实验，一种是一个层只要一个a,也就是share模式。另外一种是一个层中每个通道都有一个a，wise模式。实验表明wise结果更好。
在这里插入图片描述