已知多元函数 u=g(y1,y2,...,ym)
u
=
g
(
y
1
,
y
2
,
.
.
.
,
y
m
)
,且 yi=fi(x)
y
i
=
f
i
(
x
)
,所有函数都可微,则
∂u∂x=∑i=1m∂u∂yi∂yi∂x
∂
u
∂
x
=
∑
i
=
1
m
∂
u
∂
y
i
∂
y
i
∂
x
公式推导
1、模型
不失一般性,我们考虑以下4层结构的神经网络(全连接):
2、符号说明
符号
含义
nl
n
l
网络层数
yj
y
j
输出层第j
j
类标签
Sl
第l
l
层神经元个数(不包括偏置)
g(x)
激活函数
w(l)ij
w
i
j
(
l
)
第l
l
层第j个单元与第l+1
l
+
1
层第i
i
个单元之间的链接参数
b(l)i
第l
l
层的偏置与第l+1层第i
i
个单元之间的链接参数
z(l)i
第l
l
层第i个单元的输入(加权和,包括偏置)
a(l)i
a
i
(
l
)
第l
l
层第i个单元的输出(激活函数的值)
δ(l)i
δ
i
(
l
)
第l
l
层第i个单元的输入的偏导(或称为灵敏度、残差)
J(θ)
J
(
θ
)
代价函数
3、符号定义
z(l)ia(l)iJ(θ)δ(l)i=b(l−1)i+∑j=1Sl−1w(l−1)ija(l−1)j=g(z(l)i)=12∑j=1Sl(yj−a(l)j)2=∂J(θ)∂z(l)i
z
i
(
l
)
=
b
i
(
l
−
1
)
+
∑
j
=
1
S
l
−
1
w
i
j
(
l
−
1
)
a
j
(
l
−
1
)
a
i
(
l
)
=
g
(
z
i
(
l
)
)
J
(
θ
)
=
1
2
∑
j
=
1
S
l
(
y
j
−
a
j
(
l
)
)
2
δ
i
(
l
)
=
∂
J
(
θ
)
∂
z
i
(
l
)
4、推导过程
δ(nl)iδ(l)i∂J(θ)∂w(l)ij∂J(θ)∂b(l)i=∂J(θ)∂z(nl)i=12∂∂z(nl)i∑j=1Snl(yj−a(nl)j)2=12∂∂z(nl)i∑j=1Snl(yj−g(z(nl)j))2=12∂∂z(nl)i(yj−g(z(nl)i))2=−(yi−a(nl)i)g′(z(nl)i)=∂J(θ)∂z(l)i=∑j=1Sl+1∂J(θ)∂z(l+1)j∂z(l+1)j∂z(l)i=∑j=1Sl+1δ(l+1)j∂z(l+1)j∂z(l)i=∑j=1Sl+1δ(l+1)j∂∂z(l)i(b(l)j+∑k=1Slw(l)jka(l)k)=∑j=1Sl+1δ(l+1)j∂∂z(l)i(b(l)j+∑k=1Slw(l)jkg(z(l)k))=∑j=1Sl+1δ(l+1)j∂∂z(l)i(w(l)jig(z(l)i))=∑j=1Sl+1δ(l+1)jw(l)jig′(z(l)i)=g′(z(l)i)∑j=1Sl+1δ(l+1)jw(l)ji=∂J(θ)∂z(l+1)i∂z(l+1)i∂w(l)ij=δ(l+1)i∂z(l+1)i∂w(l)ij=δ(l+1)i∂∂w(l)ij(b(l)i+∑k=1Slw(l)ika(l)k)=δ(l+1)ia(l)j=δ(l+1)i∂∂b(l)i(b(l)i+∑k=1Slw(l)ika(l)k)=δ(l+1)i
δ
i
(
n
l
)
=
∂
J
(
θ
)
∂
z
i
(
n
l
)
=
1
2
∂
∂
z
i
(
n
l
)
∑
j
=
1
S
n
l
(
y
j
−
a
j
(
n
l
)
)
2
=
1
2
∂
∂
z
i
(
n
l
)
∑
j
=
1
S
n
l
(
y
j
−
g
(
z
j
(
n
l
)
)
)
2
=
1
2
∂
∂
z
i
(
n
l
)
(
y
j
−
g
(
z
i
(
n
l
)
)
)
2
=
−
(
y
i
−
a
i
(
n
l
)
)
g
′
(
z
i
(
n
l
)
)
δ
i
(
l
)
=
∂
J
(
θ
)
∂
z
i
(
l
)
=
∑
j
=
1
S
l
+
1
∂
J
(
θ
)
∂
z
j
(
l
+
1
)
∂
z
j
(
l
+
1
)
∂
z
i
(
l
)
=
∑
j
=
1
S
l
+
1
δ
j
(
l
+
1
)
∂
z
j
(
l
+
1
)
∂
z
i
(
l
)
=
∑
j
=
1
S
l
+
1
δ
j
(
l
+
1
)
∂
∂
z
i
(
l
)
(
b
j
(
l
)
+
∑
k
=
1
S
l
w
j
k
(
l
)
a
k
(
l
)
)
=
∑
j
=
1
S
l
+
1
δ
j
(
l
+
1
)
∂
∂
z
i
(
l
)
(
b
j
(
l
)
+
∑
k
=
1
S
l
w
j
k
(
l
)
g
(
z
k
(
l
)
)
)
=
∑
j
=
1
S
l
+
1
δ
j
(
l
+
1
)
∂
∂
z
i
(
l
)
(
w
j
i
(
l
)
g
(
z
i
(
l
)
)
)
=
∑
j
=
1
S
l
+
1
δ
j
(
l
+
1
)
w
j
i
(
l
)
g
′
(
z
i
(
l
)
)
=
g
′
(
z
i
(
l
)
)
∑
j
=
1
S
l
+
1
δ
j
(
l
+
1
)
w
j
i
(
l
)
∂
J
(
θ
)
∂
w
i
j
(
l
)
=
∂
J
(
θ
)
∂
z
i
(
l
+
1
)
∂
z
i
(
l
+
1
)
∂
w
i
j
(
l
)
=
δ
i
(
l
+
1
)
∂
z
i
(
l
+
1
)
∂
w
i
j
(
l
)
=
δ
i
(
l
+
1
)
∂
∂
w
i
j
(
l
)
(
b
i
(
l
)
+
∑
k
=
1
S
l
w
i
k
(
l
)
a
k
(
l
)
)
=
δ
i
(
l
+
1
)
a
j
(
l
)
∂
J
(
θ
)
∂
b
i
(
l
)
=
δ
i
(
l
+
1
)
∂
∂
b
i
(
l
)
(
b
i
(
l
)
+
∑
k
=
1
S
l
w
i
k
(
l
)
a
k
(
l
)
)
=
δ
i
(
l
+
1
)
向量形式的公式
δ(l)∂J(θ)∂W(l)∂J(θ)∂b(l)=(W(l))Tδ(l+1)∘g′(z(l))=δ(l+1)(a(l))T=δ(l+1)
δ
(
l
)
=
(
W
(
l
)
)
T
δ
(
l
+
1
)
∘
g
′
(
z
(
l
)
)
∂
J
(
θ
)
∂
W
(
l
)
=
δ
(
l
+
1
)
(
a
(
l
)
)
T
∂
J
(
θ
)
∂
b
(
l
)
=
δ
(
l
+
1
)