论文简介:
Toward Fast, Flexible, and Robust Low-Light Image Enhancement
代码: [https://github.com/vis-opt-group/SCI] 2022年CVPR
论文读起来还是有一点难懂,因为他这个框架图是带来较多公式,一定要结合代码去看!!
摘要
**需要解决的问题:**现有的微光图像增强技术大多不仅难以处理视觉质量和计算效率,而且在未知的复杂场景中通常无效。
在本文中,我们开发了一种新的自校准照明(SCI)学习框架,用于在真实世界的弱光场景中快速、灵活和稳健的增亮图像。具体来说,我们建立了一个具有权重共享的级联照明学习过程来处理这一任务。考虑到级联模式的计算负担,我们构建了自校准模块,该模块实现了每个阶段的结果之间的收敛,产生了仅使用单个基本块进行推理的增益(但在以前的工作中尚未使用),这大大降低了计算成本。然后,我们定义了无监督训练损失,以提高模型适应一般场景的能力。此外,我们对SCI的内在特性(现有作品)进行了全面的探索,包括操作不敏感的适应性(在不同简单操作的设置下获得稳定的性能)和模型无关的通用性(可应用于基于光照的现有作品以提高性能)。
结果,大量的实验和消融研究充分表明了我们在质量和效率方面的优势。在微光人脸检测和夜间语义分割方面的应用充分揭示了SCI潜在的实用价值。
问题:
自校准照明(SCI)学习框架:自我校准的照明,他是如何实验的呢?
权重共享的级联照明学习过程:级联,就是一级与另一级相连,权重指的是那个参数呢?
考虑到级联模式的计算负担,我们构建了自校准模块,该模块实现了每个阶段的结果之间的收敛,产生了的增益仅使用单个基本块进行推理(但在以前的工作中尚未使用),这大大降低了计算成本。
啥意思,每一个阶段收敛,产生了的增益仅使用单个基本块进行推理,就可以降低计算成本吗?
定义了无监督训练损失,以提高模型适应一般场景的能力。
SCI的内在特性探索,包括操作不敏感的适应性和模型无关的通用性。(通用性能理解,操作不敏感的适应性是什么意思呢?)
Introduction
微光图像增强旨在使隐藏在黑暗中的信息可见,以提高图像质量,近年来在多个新兴的计算机视觉领域备受关注[12,15,18,21,27,28]。在下文中,我们梳理了两个相关主题的发展过程。此外,我们还介绍了我们的主要贡献。
基于模型的方法。一般来说,Retinex理论[19]描述了微光图像增强的基本物理定律,也就是说,低光观测可以分解为照度和反射率(即清晰的图像)。得益于“L2-范数”的方便求解,傅等人[5,6]首次利用“L2-范数对光照进行约束。此外,郭等人[8]采用相对总变化[31]作为照明的约束。然而,它的致命缺陷存在于过度曝光的外观上。李等人[14]在统一的优化目标中对噪声去除和微光增强进行了建模。[10]中的工作提出了一种半解耦分解模型,用于同时提高亮度和抑制噪声。一些工作(例如,LEACRM[20])也利用相机的响应特性进行增强。受限于所定义的正则化,,它们大多产生不令人满意的结果,并且需要根据真实世界的场景手动调整许多参数。
l2-norm 为什么方便求解,怎么使用L2-范数对光照进行约束
相对总变化[31]作为照明的约束
全变差(Total Variation,TV)被用作光照的约束,对于光照调整来说,使用相对全变差作为约束可能有助于平滑化调整后的图像或光照,同时保持图像的结构。这样的约束可以在优化问题中引入,以确保光照调整的结果不会引入过多的噪音或不自然的效果。
统一的优化目标中对噪声去除和微光增强进行了建模
半解耦分解模型,用于同时提高亮度和抑制噪声
相机的响应特性进行增强
什么叫受限于所定义的正则化,,它们大多产生不令人满意的结果,并且需要根据真实世界的场景手动调整许多参数。
“受限于所定义的正则化” 指的是在某个优化问题中,为了控制解的复杂性或防止过拟合,引入了某种形式的正则化。正则化是通过在优化问题的目标函数中添加额外的项,来对解的复杂性进行约束的一种技术。
**基于网络的方法。**通过调整曝光时间,[3]中的工作构建了一个新的数据集,称为LOL数据集。这项工作还设计了RetinexNet,它往往会产生不自然的增强效果。KinD[37]通过引入一些训练损失和调整网络架构,改善了RetinexNet中出现的问题。DeepUPE[25]定义了一种用于增强低光输入的照明估计网络。[33]中的工作提出了一种递归带网络,并通过半监督策略对其进行训练。EnGAN[11]设计了一种发电机,注意在非配对监督下进行增强。
SSIENet[36]构建了一个分解型架构,以同时估计光照和反射率。
ZeroDCE[7]启发式地构建了一个具有学习参数的二次曲线。最近,刘等人[16]构建了一个具有架构搜索的视网膜扫描展开框架。不可否认,这些深层网络是精心设计的。
然而,它们并不稳定,很难实现始终如一的卓越性能,尤其是在未知的现实世界场景中,不清楚的细节和不适当的曝光无处不在。
**我们的贡献。**为了解决上述问题,我们开发了一种新的自校准照明(SCI)学习框架,用于快速、灵活和稳健的微光图像增强。通过重新开发照明学习过程的中间输出,我们构建了一个自校准模块,以赋予单个基本块更强的表示能力,并使每个阶段的结果收敛,从而实现加速。更具体地说,我们的主要贡献可以总结为:
我们为具有权重共享的照明学习开发了一个自校准模块,以使每个阶段的结果收敛,提高曝光稳定性,并在很大程度上减少计算负担。据我们所知,利用学习过程来加速微光图像增强算法是第一项工作。
我们定义了无监督训练损失,以约束自校准模块作用下每个阶段的输出,赋予其对不同场景的适应能力。属性分析表明,SCI具有操作不敏感的适应性和模型无关的通用性,这是现有工作中所没有的。
The Proposed Method
在本节中,我们首先介绍了具有权重共享的照明学习,然后构建了自校准模块。接下来介绍了无监督训练损失。最后,我们对我们构建的SCI进行了全面的讨论。
2.1、权重共享的照明学习
根据Retinex理论,在弱光观察y和期望的清晰图像z:y=z⊗x之间存在联系,其中x表示照明分量。通常,照明被视为主要需要针对微光图像增强进行优化的核心组件。可以通过根据Retinex理论去除估计的照明来进一步获取增强的输出。
在这里,受作品[8,16]中提出的照明分阶段优化过程的启发,通过引入具有参数θ的映射Hθ来学习照明,我们提供了一个渐进的视角来对该任务进行建模,基本单元写为
其中ut和xt分别表示第t阶段(t=0,…,t−1)的残差项和照度。需要注意的是,我们没有在Hθ中标记阶段编号,因为我们采用了权重共享机制,即在每个阶段使用相同的架构H和权重θ。
以上是代码的算法过程
问题:
works [8, 16],参考的是那两个文章 RUAS和Lime: Low-light image enhancement via illumination map estimation.这两篇文章,照明分阶段优化。
怎么理解这个公式,照明分阶段优化过程
参数θ的映射Hθ来学习照明,
采用了权重共享机制,即在每个阶段使用相同的架构H和权重θ
我的理解是,??
事实上,参数化算子Hθ学习照明和弱光观测之间的简单残差表示ut。这一过程受到了一个共识的启发,即照明和低光观测在大多数区域是相似的或存在线性连接。
与采用低光之间的直接映射相比观察和照明(现有工作中常用的模式,例如[16,25]),学习残差表示大大降低了计算难度,以保证性能并提高稳定性,尤其是对于曝光控制。
学习残差表示大降低了计算难度
事实上,我们可以在给定训练损失和数据的情况下直接利用上述构建的过程来获取增强模型。但值得注意的是,具有多个权重共享块的级联机制不可避免地会增加可预见的推理成本。重新审视这个共享过程,每个共享块都希望输出尽可能接近期望目标的结果。更进一步,理想的情况是第一个块可以输出所需的结果,这满足了任务需求。同时,后一个块输出与第一个块相似甚至完全相同的结果。这样,在测试阶段,我们只需要一个块来加快推理速度。接下来,我们将探讨如何实现它。
讲了个啥?
他是如何训练,
测试又是怎么测试的,
2.2.自校准模块
在这里,我们的目标是定义一个模块,使每个阶段的结果收敛到同一个状态(这里怎么理解呢?)。我们知道,每个阶段的输入源于前一阶段,第一阶段的输入明确定义为弱光观测。一个直观的想法是,我们是否可以将每个阶段(第一阶段除外)的输入与低光观测(即第一阶段的输入)桥接起来,间接探索每个阶段之间的收敛行为。为此,我们引入了一个自校准的模块映射s,并将其添加到弱光观测中,以呈现每个阶段和第一阶段的输入之间的差异。具体而言,自校准模块可以表示为
这个就是计算每一个阶段与第一个阶段的差异,
自校准的模块映射,并将其添加到弱光观测中,以呈现每个阶段和第一阶段的输入之间的差异。
其中t≥1,vt是每个阶段的转换输入,Kθ是引入的具有可学习参数θ的参数化算子。则第t阶段(t≥1)中基本单位的转换可以写成
没有看懂这个自校准模块,
实际上,我们构建的自校准模块通过整合物理原理来逐步校正每个阶段的输入,从而间接影响每个阶段的输出。为了评估自校准模块对收敛性的影响,我们在图中绘制了每个阶段的结果之间的
tSNE分布,我们可以很容易地观察到每个阶段的效果确实收敛到相同的值。但在没有自校准模块的情况下,无法发现这种现象。此外,上述结论还反映出,我们确实实现了第2.1节最后一段所述的意图,即,使用权重共享模式训练多个级联块,但仅使用单个块进行测试。我们还提供了图2中的总体流程图,用于理解我们建立的SCI框架。
图2:SCI的整个框架。在训练阶段,我们的SCI由照度估计和自校准模块组成。自校准模块映射被添加到原始低光输入,作为下一阶段的照明估计的输入。注意,这两个模块分别是整个训练过程中的共享参数。在测试阶段,我们只使用单个照明估计模块。
图3。根据是否使用自校准模块的每个阶段的结果,比较t-SNE[24]分布。它展示了为什么我们可以使用单个阶段进行测试,即SCI中每个阶段的结果都可以快速收敛到相同的值,但没有自校准模块无法始终实现。
t-SNE[24]分布是什么鬼:
作用是什么
t-SNE 的基本思想是保留数据点之间的相似性关系。它使用概率分布来测量高维空间和低维空间中数据点之间的相似性,并通过最小化这两个空间中相似性之间的差异来找到一个低维表示。这种方法使得 t-SNE 对于保留局部结构非常有效,即在原始高维空间中相互靠近的数据点在 t-SNE 映射后仍然相互靠近。
2.3. Unsupervised Training Loss
考虑到现有配对数据的不精确性,我们采用无监督学习来扩大网络能力。我们将总损失定义为Ltotal=αLf+βLs,其中Lf和Ls分别表示保真度和平滑损失。α和β是两个正平衡参数。保真度损失是为了保证估计的照明和的输入之间的像素级一致性每个阶段,公式为
其中T是总级数。实际上,该函数利用重新定义的输入y+st−1来约束输出照明xt,而不是手工制作的真实数据或普通的低光输入。
就是用的是L2loss
照明的平滑性是这项任务中的广泛共识[7,37]。在这里,我们采用了一个具有空间可变“1范数[4]”的光滑项,表示为
其中N是像素的总数。i是第i个像素。N(i)表示i在其5×5窗口中的相邻像素。wi,j表示重量,其公式形式为
其中c表示YUV颜色空间中的图像通道。σ=0.1是高斯核的标准偏差。
2.4. Discussion
本质上,自校准模块在学习更好的基本块(本工作中的照明估计块)中起着辅助作用,该块被级联以生成具有权重共享机制的整体照明学习过程。更重要的是,自校准模块使每个阶段的结果趋于一致,但在现有工作中尚未对此进行探索。此外,
SCI的核心思想实际上是引入额外的网络模块来辅助训练,而不是测试。它改进了模型表征,实现了只使用单个块进行测试。也就是说,“重量分担+任务相关自校准模块”的机制可能会被转移到处理其他任务以进行加速。
重量分担+任务相关自校准模块
Exploring Algorithmic Properties
在本节中,我们对我们提出的SCI进行了探索,以深入分析其性质。
3.1操作不敏感适应性
通常,基于网络的方法中使用的操作应该是固定的,不能任意更改,因为这些操作是在大规模实验的支持下获得的。幸运的是,我们提出的算法在Hθ的不同极其简单甚至天真的设置上表现出了令人惊讶的适应性。
表1。MIT测试数据集上Hθ不同设置之间的定量比较。其中,基本块包含一个大小为3×3的卷积层和一个ReLU层。“块”和“通道”分别表示基本块的数量和基本块中通道的变化。
如表1所示,我们可以很容易地观察到,我们的方法在不同的设置(块的数量3×3卷积+ReLU)之间获得了稳定的性能。
图4。表1中不同案例之间的视觉比较。
此外,我们在图中提供了视觉比较。可以很容易地观察到,我们具有不同设置的SCI都使低光观察变亮,显示出非常相似的增强结果。重新审视我们设计的框架,可以获得的这一特性在于SCI不仅转换了照明的共识(即残差学习),而且集成了物理原理(即逐元素除法运算)。这个实验也证实我们设计的SCI的有效性和正确性。
3.2. Model-Irrelevant Generality
如果不限制与任务相关的自校准模块,我们的SCI实际上是一种广义的学习范式,因此理想情况下,它可以直接应用于现有的工作。这里,我们以最近提出的代表作RUAS[16]为例进行探索。表2和图5展示了定量和定性比较-在使用我们的SCI训练RUAS之前/之后。显然,尽管我们只是使用了RUAS展开过程中使用的单个块(即RUAS(1))来评估我们的训练过程,但性能仍然得到了显著提高。更重要的是,我们的方法可以显著抑制原始RUAS中出现的过度曝光。这个实验反映了我们的学习框架确实足够灵活,并且具有很强的模型无关通用性。此外,这表明也许我们的方法可以是反式的-涉及到基于任意照明的微光图像增强工作,我们将在未来尝试这样做。
这一点最重要,就是可以应用到其他微光图像增强的任务中去!!!!,他是把这个用在ruas上面去,这里我有一个疑问,你是准备怎么用呢?而且我挺好奇的,就是他是怎么与RUAS结合在一起用的?
SCI(Self-Calibration and Invariant learning): SCI 是指自校准和不变学习。自校准通常指模型能够自动地调整或纠正其输出,以适应输入数据的变化或不确定性。不变学习强调模型对于输入数据中的某些变换具有稳定性,即模型能够识别并保持对这些变换不变的特征。
广义的学习范式: 这里指的是SCI作为一种学习方法,不仅仅局限于特定的任务或领域。广义的学习范式表示SCI可能具有较强的适应性,能够在多个领域或任务中发挥作用,而不仅仅局限于某个特定问题的解决。
不限制与任务相关的自校准模块: 这表示SCI方法不受与特定任务相关的自校准模块的限制。自校准模块通常用于帮助模型在处理任务时进行自适应和调整。这句话的表达意味着SCI方法可能更为灵活,不一定需要依赖特定任务的自校准模块,可能能够在更广泛的上下文中发挥作用。
表2。SCI可用于提高现有工作的性能,例如RUAS[16]。其中RUAS(d)表示在RUAS中出现的展开过程采用d个迭代块。在这里,我们采用LSRW[9]数据集进行测试。
我是好奇他是怎么使用的,???
图5。表2中不同情况的视觉比较
RUAS存在过曝问题,第二个SCI是可迁移的工作,
实验结果
在本节中,我们首先提供了所有的实现细节。然后我们进行了实验评估。接下来,我们将增强方法应用于暗脸检测和夜间语义分割。最后,我们对SCI进行了算法分析。所有实验都是在带有单个TITAN X GPU的PC上进行的。
4.1实施细节
**参数设置。**在训练过程中,我们使用了参数为β1=0.9、β2=0.999和=10−8的ADAM优化器[13]。迷你批次大小设置为8。学习率初始化为10-4。训练历元编号设置为1000。根据第3.1节中的结论,我们在所有实验中采用了3个卷积+具有3个通道的ReLU作为Hθ的默认设置。自校准模块包含四个卷积层,确保了训练过程的轻量级。事实上,网络的形式可能不是固定的,我们在补充材料中已经做了实验来验证它。
比较方法。关于弱光图像增强,我们将我们的SCI与最近提出的四种基于模型的方法(包括LECARM[20]、SDD[10]、STAR[29])、四种高级监督学习方法(包括RetinexNet[3]、KinD[37]、FIDE[30]、DRBN[33])和四种无监督学习法(包括EnGAN[11]、SSIENet[36]、ZeroDCE[7]和RUAS[16])进行了比较。关于暗脸检测,除了在检测器之前进行上述基于网络的增强工作外,我们还比较了最近提出的暗脸检测方法HLA[27]。
**基准描述和指标。**关于微光图像增强,我们从MIT数据集[2]中随机采样了100幅图像,从LSRW数据集[9]中随机采样50幅测试图像进行测试。我们使用了两个完整参考指标,包括PSNR和SSIM,五个无参考指标,其中包括DE[23]、EME[1]、LOE[26]和NIQE[26]。至于暗脸检测,我们使用了暗脸数据集[34],该数据集由1000张具有挑战性的测试图像组成,这些图像是从2021年CVPR举行的UG2+PRIZE challenge的子挑战中随机采样的。我们将检测准确度、准确度和召回率作为评估指标。至于夜间语义分割,我们使用ACDC[22]中的400幅图像进行训练,其余106幅图像作为评估数据集。评估的指标被定义为IoU和mIoU。
我们使用了两个完整参考指标,包括PSNR和SSIM,五个无参考指标,其中包括DE[23]、EME[1]、LOE[26]和NIQE[26]。
4.2.基准试验评价
**绩效评估。**如表3所示,我们的SCI取得了具有竞争力的表现,尤其是在非引用指标方面。如图6-7所示,先进的深度网络产生了未知的面纱,导致了不明显的细节和不自然的颜色。相比之下,我们的SCI以生动的色彩和突出的纹理获得了最佳的视觉质量。
在补充材料中可以找到更直观的比较。
表3。在MIT和LSRW数据集上,两个全参考指标(包括PSNR和SSIM)和四个无参考指标(包含DE、EME、LOE和NIQE)的定量结果。
图6。MIT数据集上最先进的微光图像增强方法的视觉比较。
图7。最先进的微光图像增强方法在LSRW数据集上的视觉比较。
**计算效率。**此外,我们在表4中报告了最近提出的一些
基于CNN的方法的模型大小、FLOP和运行时间(GPU秒)。
显然,与其他网络相比,我们提出的SCI是最轻量级的,并且明显优于其他网络。
表4。基于CNN的方法和我们的SCI的模型大小、FLOP和运行时间(用于推理的GPU秒)。
4.3.野外实验评估
在野外场景中进行弱光图像增强是极具挑战性的。图像的部分过曝光信息的控制、整体颜色的校正以及图像细节的保存都是急需解决的问题。在这里,我们测试了来自DARK FACE[34]和ExDark[17]数据集的许多具有挑战性的野外例子。如图6所示,8,通过大量实验可以看出,我们的方法比其他方法获得了更令人满意的可视化结果,特别是在曝光水平、结构描述、颜色呈现方面。由于篇幅有限,我们在补充材料中提供了更多的比较。
图8。对一些极具挑战性的例子进行视觉比较。更多结果可在补充材料中找到。
4.4.黑脸检测
我们利用S3FD[35]这一众所周知的人脸检测算法来评估暗脸检测性能。请注意,S3FD是用原始S3FD中提供的WIDER FACE数据集[32]训练的,我们在所有方法上对预训练的S3FD进行了微调。
同时,我们执行了一种名为 SCI+ 的新方法,该方法将我们的SCI作为基本模块嵌入到S3FD的前面,用于联合训练,克服任务和增强的损失。如图9所示,我们的方法(SCI和SCI+)在所有比较方法中获得了最好的分数,并且强化版本获得了比微调版本更好的性能。图10进一步展示了视觉对比。可以很容易地观察到,通过应用我们的SCI,也可以检测到较小的对象,而其他方法无法做到这一点,如放大区域所示。
图9。DARK FACE数据集上的Precision Recall曲线。所有比较的方法和SCI都对增强的结果进行了微调。SCI+是联合训练检测器和SCI进行检测和增强的损失组合。
图10。DarkFace数据集上人脸检测的视觉比较。更多结果可在补充材料中找到。
5、夜间语义分割
在这里,我们采用PSPNet[38]作为基线来评估所有方法在模式“预训练+微调”(类似于暗脸检测中的SCI版本)上的分割性能。表5和图11展示了不同方法之间的定量和定性比较结果。我们的性能明显优于其他最先进的方法。如图11中放大的区域所示,11,所有比较的方法都产生了一些未知的伪影,损害了生成的分割图的质量。
图11。ACDC数据集上语义分割的可视化结果。更多结果可在补充材料中找到。
表5。ACDC数据集上夜间语义分割的定量结果。符号集{RO、SI、BU、WA、FE、PO、TL、TS、VE、TE、SK、PE、RI、CA、TR、MO、BI}代表{道路、人行道、建筑物、墙壁、围栏、电线杆、红绿灯、交通标志、植被、地形、天空、人、骑手、汽车、火车、摩托车、自行车}。请注意,我们根据所有比较方法生成的增强结果对分割模型进行了重新训练。最好的结果是红色的,而第二好的结果是蓝色的。
4.6.消融实验
比较分解的组件。实际上,我们的SCI属于基于光照的学习方法,增强的视觉质量在很大程度上取决于估计的光照。在这里,我们将我们的SCI与三种具有代表性的基于照明的学习方法进行了比较,包括RetinexNet、KinD和SSIENet。如图12所示,我们可以很容易地看到,我们估计的照明保持了良好的平滑性。它确保了我们生成的反射率在视觉上更友好。
图12。比较不同基于照明的网络之间的分解分量。放大以获得最佳视图。
消融研究。我们在图13中比较了不同模式的性能。直接学习照明将导致图像曝光过度。学习的过程照明和输入之间的学习残差确实抑制了过度曝光,但总体图像质量仍然不高,尤其是在细节把握方面。相比之下,使用我们的方法的增强结果不仅抑制了过度曝光,而且丰富了图像结构。
图13。分析照明学习中的不同模式。
5.结束语
在本文中,我们成功地建立了一个轻量级但有效的框架,即自校准照明(SCI),用于针对不同现实世界场景的微光图像增强。我们不仅对SCI的优秀特性进行了深入的探索,还进行了大量的实验,以表明我们在微光图像增强、暗脸检测和夜间语义分割方面的有效性和优越性。
更广泛的影响。从任务的角度来看,SCI提供了一个高效的学习框架,在图像质量和推理速度方面都获得了极其优越的性能。也许这将是进入低光图像增强高速高质量新时代的一个支撑。在方法设计方面,SCI开辟了一个新的视角(即在训练阶段引入提高基本单元模型能力的辅助过程),以提高其他低级视觉问题在现实世界场景中的实用性。
代码复现:
理解其关照估计原理