出处
2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
论文贡献
1.首次尝试提出了一种用于微光图像增强的半监督学习框架,其中设计了一种深度递归带表示来连接全监督框架和非监督框架,以整合它们的优势——通过训练成对的数据集,获得较强的信号保真度约束以校正详细信号;通过训练高质量的图像数据集,获得较强的人类感知质量。
2.该框架被设计成能够提取一系列从粗到细的波段表示。通过端到端的递归训练,这些频带表示的估计是互惠的,能够去除噪声和校正细节。
3.在质量引导的对抗性学习的感知指导下,对深带表示进行重构。基于平均意见得分(MOS)感知地选择用于鉴别器的“真实图像”。
半监督微光增强的深递归带网络
该网络的整体架构如下图所示:
1.递归带学习
如图所示该部分建立了一个类似UNet的深度网络,由三个卷积层和三个反卷积层构成。将网络每次输出作为网络的下次迭代的输入,由公式
(
1
)
(1)
(1)表示为:
[
f
s
1
1
,
f
s
2
1
,
f
s
3
1
]
=
F
B
L
N
_
F
1
(
y
)
,
[f_{s_1}^1,f_{s_2}^1,f_{s_3}^1]=F_{BLN\_F}^1(y),
[fs11,fs21,fs31]=FBLN_F1(y),
x
^
s
1
1
=
F
R
_
s
1
1
(
f
s
1
1
)
,
\hat x_{s_1}^1=F_{R\_s_1}^1(f_{s_1}^1),
x^s11=FR_s11(fs11),
x
^
s
2
1
=
F
R
_
s
2
1
(
f
s
2
1
)
+
F
U
(
x
^
s
1
1
)
,
\hat x_{s_2}^1=F_{R\_s_2}^1(f_{s_2}^1)+F_U(\hat x_{s_1}^1),
x^s21=FR_s21(fs21)+FU(x^s11),
x
^
s
3
1
=
F
R
_
s
3
1
(
f
s
3
1
)
+
F
U
(
x
^
s
2
1
)
\hat x_{s_3}^1=F_{R\_s_3}^1(f_{s_3}^1)+F_U(\hat x_{s_2}^1)
x^s31=FR_s31(fs31)+FU(x^s21)
其中
f
s
1
1
,
f
s
2
1
,
f
s
3
1
f_{s_1}^1,f_{s_2}^1,f_{s_3}^1
fs11,fs21,fs31为每次卷积后得到的特征图像,
x
^
s
1
1
,
x
^
s
2
1
,
x
^
s
3
1
\hat x_{s_1}^1,\hat x_{s_2}^1,\hat x_{s_3}^1
x^s11,x^s21,x^s31为每次反卷积后得到的特征图像。
在进行第
t
t
t次迭代时,在先前估计结果的指导下,仅学习残差特征
Δ
f
s
1
t
,
Δ
f
s
2
t
,
Δ
f
s
3
t
\Delta f_{s_1}^t,\Delta f_{s_2}^t,\Delta f_{s_3}^t
Δfs1t,Δfs2t,Δfs3t,由公式
(
2
)
(2)
(2)表示为:
[
Δ
f
s
1
t
,
Δ
f
s
2
t
,
Δ
f
s
3
t
]
=
F
B
L
N
_
F
t
(
y
,
x
^
s
3
t
−
1
)
,
[\Delta f_{s_1}^t,\Delta f_{s_2}^t,\Delta f_{s_3}^t]=F_{BLN\_F}^t(y,\hat x_{s_3}^{t-1}),
[Δfs1t,Δfs2t,Δfs3t]=FBLN_Ft(y,x^s3t−1),
f
s
i
t
=
Δ
f
s
i
t
+
f
s
i
t
−
1
,
i
=
1
,
2
,
3
f_{s_i}^t=\Delta f_{s_i}^t+f_{s_i}^{t-1},i=1,2,3
fsit=Δfsit+fsit−1,i=1,2,3
x
^
s
1
t
=
F
R
_
s
1
t
(
f
s
1
t
)
,
\hat x_{s_1}^t=F_{R\_s_1}^t(f_{s_1}^t),
x^s1t=FR_s1t(fs1t),
x
^
s
2
t
=
F
R
_
s
2
t
(
f
s
2
t
)
+
F
U
(
x
^
s
1
t
)
,
\hat x_{s_2}^t=F_{R\_s_2}^t(f_{s_2}^t)+F_U(\hat x_{s_1}^t),
x^s2t=FR_s2t(fs2t)+FU(x^s1t),
x
^
s
3
t
=
F
R
_
s
3
t
(
f
s
3
t
)
+
F
U
(
x
^
s
2
t
)
\hat x_{s_3}^t=F_{R\_s_3}^t(f_{s_3}^t)+F_U(\hat x_{s_2}^t)
x^s3t=FR_s3t(fs3t)+FU(x^s2t)
该部分训练由重建损失
L
R
e
c
t
L_{Rect}
LRect进行约束,其函数表达式为:
L
R
e
c
t
=
−
(
ϕ
(
x
^
s
3
T
,
x
)
+
λ
1
ϕ
(
x
^
s
2
T
,
F
D
(
x
,
s
2
)
)
+
λ
2
ϕ
(
x
^
s
1
T
,
F
D
(
x
,
s
1
)
)
)
(3)
L_{Rect}=-(\phi(\hat x_{s_3}^T,x)+\lambda_1\phi(\hat x_{s_2}^T,F_D(x,s_2))+\lambda_2\phi(\hat x_{s_1}^T,F_D(x,s_1)))\tag{3}
LRect=−(ϕ(x^s3T,x)+λ1ϕ(x^s2T,FD(x,s2))+λ2ϕ(x^s1T,FD(x,s1)))(3)
其中
F
D
F_D
FD表示下采样过程,
s
i
s_i
si表示下采样过程中的缩放因子,
ϕ
\phi
ϕ计算输入图像的SSIM值,
λ
1
\lambda_1
λ1和
λ
2
\lambda_2
λ2训练可得到的权重参数。
2.带重组
将第一个网络中,第
T
T
T次迭代相邻反卷积过程得到的残差特征
(
Δ
x
^
s
1
T
,
Δ
x
^
s
2
T
,
Δ
x
^
s
3
T
)
(\Delta\hat x_{s_1}^T,\Delta\hat x_{s_2}^T,\Delta\hat x_{s_3}^T)
(Δx^s1T,Δx^s2T,Δx^s3T)作为第二个网络的输入,由公式(4)表示为:
{
ω
1
,
ω
2
,
ω
3
}
=
F
R
C
(
{
Δ
x
^
s
1
T
,
Δ
x
^
s
2
T
,
Δ
x
^
s
3
T
}
)
\{\omega_1,\omega_2,\omega_3\}=F_{RC}(\{\Delta\hat x_{s_1}^T,\Delta\hat x_{s_2}^T,\Delta\hat x_{s_3}^T\})
{ω1,ω2,ω3}=FRC({Δx^s1T,Δx^s2T,Δx^s3T})
x
^
3
F
=
∑
i
=
1
3
ω
i
Δ
x
^
s
i
T
,
\hat x_3^F=\sum_{i=1}^3\omega_i\Delta\hat x_{s_i}^T,
x^3F=i=1∑3ωiΔx^siT,
Δ
x
^
s
i
T
=
x
^
s
i
T
−
F
U
(
x
^
s
i
−
1
T
)
,
i
=
2
,
3
\Delta\hat x_{s_i}^T=\hat x_{s_i}^T-F_U(\hat x_{s_{i-1}}^T),i=2,3
Δx^siT=x^siT−FU(x^si−1T),i=2,3
Δ
x
^
s
1
T
=
x
^
s
1
T
\Delta\hat x_{s_1}^T=\hat x_{s_1}^T
Δx^s1T=x^s1T
其中输出图像
x
^
3
F
\hat x_3^F
x^3F接受以下三项损失训练:
L
D
e
t
a
i
l
=
−
ϕ
(
x
^
3
F
−
x
)
(5)
L_{Detail}=-\phi(\hat x_3^F-x)\tag{5}
LDetail=−ϕ(x^3F−x)(5)
L
P
e
r
c
e
p
t
=
∣
∣
F
P
(
x
^
3
F
)
−
F
P
(
x
)
∣
∣
2
2
(6)
L_{Percept}=||F_P(\hat x_3^F)-F_P(x)||_2^2\tag{6}
LPercept=∣∣FP(x^3F)−FP(x)∣∣22(6)
L
Q
u
a
l
i
t
y
=
−
l
o
g
D
(
x
^
3
F
)
(7)
L_{Quality}=-logD(\hat x_3^F)\tag{7}
LQuality=−logD(x^3F)(7)
其中
D
D
D是衡量
x
^
3
F
\hat x_3^F
x^3F符合人眼偏好概率的鉴别器,
F
P
F_P
FP是从预先训练的VGG网络中提取深层特征的过程。
该部分网络的整体损失为:
L
S
B
R
=
L
P
e
r
c
e
p
t
+
λ
3
L
D
e
t
a
i
l
+
λ
4
L
Q
u
a
l
i
t
y
(9)
L_{SBR}=L_{Percept}+\lambda_3 L_{Detail}+\lambda_4 L_{Quality}\tag{9}
LSBR=LPercept+λ3LDetail+λ4LQuality(9)
其中
λ
3
\lambda_3
λ3和
λ
4
\lambda_4
λ4为权重参数。