Toward Fast, Flexible, and Robust Low-Light Image Enhancement(实现快速、灵活和稳健的弱光图像增强)CVPR2022

最前面是论文翻译，中间是背景+问题+方法步骤+实验过程，最后是文中的部分专业名词介绍（水平线分开，能力有限，部分翻译可能不太准确）

图1.最近最先进的方法与我们的方法之间的比较。KinD是一种典型的成对监督方法。EnGAN考虑了非配对监督学习。ZeroDCE和RUAS引入了无监督学习。我们的方法（只包含三个卷积，大小为3×3）也属于无监督学习。如放大区域所示，这些比较的方法出现不正确的曝光、颜色失真和结构不足以降低视觉质量。相比之下，我们的结果呈现生动的颜色和鲜明的轮廓。此外，我们报告了（b）中的计算效率（大小、浮点和时间）和（c）中三个任务中五种测量指标的数值分数，包括增强（峰值信噪比、SSIM和EME）、检测（mAP）和分割（mIoU），很容易观察到我们的方法明显优于其他方法。

摘要:

现有的低照度图像增强技术大多不仅难以处理视觉质量和计算效率，而且在未知的复杂场景中普遍无效。在本文中，我们开发了一个新的自我校准光照（SCI）学习框架，用于在现实世界的低光照场景中快速、灵活和稳健地提高图像亮度。具体来说，我们建立了一个具有权重共享的级联照明学习过程来处理这项任务。考虑到级联模式的计算负担，我们构建了自校准模块，实现了每个阶段的结果之间的收敛，产生了只使用单一基本块进行推理的收益（但在以前的工作中没有利用），这大大降低了计算成本。然后，我们定义了无监督的训练损失，以提高模型的能力，使其能够适应一般的场景。此外，我们进行了全面的探索，以挖掘SCI的固有特性（在现有工作中缺乏），包括对操作不敏感的适应性（在不同的简单操作设置下获得稳定的性能）和与模型无关的通用性（可以应用于基于光照的现有作品以提高性能）。最后，大量的实验和消融研究充分表明我们在质量和效率方面的优势。在低光人脸检测和夜间语义分割上的应用充分揭示了SCI的潜在实用价值。

1.引言

低照度图像增强的目的是使隐藏在黑暗中的信息变得可见，以提高图像质量，它在最近多个新兴的计算机视觉领域引起了广泛的关注。在下文中，我们梳理了两个相关主题的发展过程。此外。我们描述了我们的主要贡献。

基于模型的方法。一般来说，Retinex理论描述了弱光图像增强的基本物理规律，即弱光观察可以分解为照度和反射率（即清晰图像）。受益于L2-norm的便捷解法，Fu等人首先利用L2-norm来实现图像增强。此外，Guo等人[8]采用相对总变化[28]作为光照度的约束条件。然而，其致命的缺陷在于过度曝光的出现。Li等人[13]在一个统一的优化目标中建立了去除噪声和低光增强的模型。10]中的工作提出了一个半解耦的分解模型来同时提高亮度和抑制噪声。一些工作（例如LEACRM[17]）也利用摄像机的响应特性进行增强。受限于定义的正则化，他们大多产生了不满意的结果，并且需要针对现实世界的情况手动调整大量参数。

基于网络的方法。通过调整曝光时间，[3]中的工作建立了一个新的数据集，称为LOL数据集。这项工作还设计了RetinexNet，它倾向于产生不自然的增强结果。KinD通过引入一些训练损失和调整网络结构，改善了RetinexNet中出现的问题。DeepUPE定义了一个用于增强低光输入的光照度估计网络。30]中的工作提出了一个递归带状网络，并通过半监督策略对其进行训练。EnGAN[11]设计了一个带有注意力的发生器，用于在非监督下进行增强。SSIENet[33]建立了一个分解型架构，以同时估计照度和反射率。ZeroDCE[7]启发式地建立了一个具有学习参数的二次曲线。最近，Liu等人[14]建立了一个受Retinex启发的具有架构搜索的解卷框架。不可否认的是，这些深度网络设计的很好。然而，它们并不稳定，也很难实现持续的卓越性能，尤其是在未知的真实世界场景中，不清楚的细节和不恰当的暴露无处不在。

我们的贡献。为了解决上述问题，我们开发了一个新的自我校准光照（SCI）学习框架，用于快速、灵活和稳健的低照度图像增强。通过重新开发照度学习过程的中间输出，我们构建了一个自我校准的模块，以赋予单一的基本块更强的代表性，并在每个阶段的结果之间进行收敛，以实现加速。更具体地说，我们的主要贡献可以总结为：

我们为光照学习开发了一个自校准模块，通过权重共享使每个阶段的结果趋于一致，提高了曝光的稳定性，并在很大程度上减少了计算负担。据我们所知，这是第一个通过利用学习过程来加速低照度图像增强算法的工作。

我们定义了无监督训练损失，在自我校准模块的作用下约束每个阶段的输出，赋予了对不同场景的适应能力。属性分析表明，SCI具有操作不敏感的适应性和与模型无关的通用性，这在现有的工作中是没有的。

我们进行了广泛的实验来说明我们与其他最先进的方法相比的优越性。在黑暗的人脸检测和夜间语义分割方面的应用被进一步揭示了我们的实用价值。总而言之，SCI在基于网络的低光图像增强领域重新定义了视觉质量、计算效率和下游任务的性能。

2.拟用方法

在这一部分中，我们首先介绍了具有权重共享的照明学习，然后构建了自校准模块。接下来介绍了无监督训练损失。最后，我们对我们构建的SCI进行了全面的讨论。

2.1权重共享的照明学习

根据Retinex理论，在低照度观察值y和期望的清晰图像z之间存在着一种联系：y = z ⊗ x，其中x代表照明成分。一般来说，照度被看作是低光照图像增强需要主要优化的核心部分。根据Retinex理论，通过去除估计的照度，可以进一步获得增强的输出。在此，受作品[8，14]中提出的照度分阶段优化过程的启发，通过引入参数θ的映射Hθ来学习照度，我们提供了一个渐进的视角来模拟这一任务，基本单元被写为

其中u t和x t分别代表第t阶段（t = 0,...,T - 1）的剩余项和照度。需要注意的是，我们没有在Hθ中标记阶段编号，因为我们采用了权重共享机制，即在每个阶段使用相同的架构H和权重θ。

事实上，参数化算子H θ 1在照明和低光观察之间学习了一个简单的残差表示u t。这个过程的灵感来自于一个共识，即照明和低光观察在大多数地区是相似的或现有的线性连接。与采用低光观察和照明之间的直接映射（现有工作中常用的模式，如[14,22]）相比，学习残差表示大大降低了计算难度，既保证了性能，又提高了稳定性，特别是对于曝光控制2。特别是对于曝光控制2。

事实上，我们可以直接利用上述建立的过程与给定的训练损失和数据来获得增强的模型。但值得注意的是，具有多个权重共享块的级联机制不可避免地会产生可预见的推理成本。重新审视这个共享过程，每个共享块都希望尽可能地输出一个接近于预期目标的结果。再进一步说，理想的情况是第一个块可以输出期望的结果，满足任务需求。同时，后面的区块输出类似的结果。甚至是与第一个区块完全一样的结果。这样一来，在测试阶段，我们只需要一个区块就能加快推理速度。接下来，我们将探讨如何实现它。

2.2自校准模块

在这里，我们的目的是定义一个模块，使每个阶段的结果都收敛到同一个状态。我们知道，每个阶段的输入都源于前一个阶段，而第一个阶段的输入肯定被定义为弱光观察。一个直观的想法是，我们是否可以将每个阶段的输入（除了第一阶段）和低光观察（即第一阶段的输入）连接起来，间接探索每个阶段之间的收敛行为。为此，我们引入了一个自我校准的地图s，并将其添加到弱光观察中，以呈现每个阶段的输入与第一阶段的差异。具体来说，自我校准模块可以呈现为：

其中t≥1，v t为各阶段的转换输入，Kϑ3为引入的参数化算子，参数为可学习参数ϑ。那么，第t阶段（t≥1）基本单元的转换可以写成阶段（t≥1）的基本单元转换可写为

实际上，我们构建的自校准模块通过整合物理原理来逐步校正每个阶段的输入，从而间接影响每个阶段的输出。为了评估自校准模块对收敛性的影响，我们绘制了以下结果之间的tSNE分布：我们可以很容易地观察到，每个阶段的结果确实收敛到相同的值。但在没有自校准模块的情况下，无法发现这种现象。此外，上述结论还反映出，我们确实实现了第2.1节最后一段中所述的意图，即使用权重共享模式训练多个级联块，但仅使用单个块进行测试。

（a）不带自校准模块

（b）带自校准模块

图3.根据是否使用自校准模块的每个阶段的结果比较t-SNE分布。这说明了为什么我们可以使用单个阶段进行测试，即SCI中每个阶段的结果可以快速收敛到相同的值，但没有自校准模块无法始终实现。

我们还提供了图2中的整体流程图，以了解我们建立的SCI框架。

自校准照明学习测试阶段

图2.SCI的整个框架。在训练阶段，我们的SCI由光照估计和自校准模块组成。自校准模块地图将添加到原始的微光输入中，作为下一阶段照明估计的输入。注意，这两个模块分别是整个训练过程中的共享参数。在测试阶段，我们只使用单个照明估计模块。

2.3无监督训练损失

考虑到现有配对数据的不精确性，我们采用无监督学习来扩大网络容量。我们将总损耗定义为L total=αL f+βL s，其中L f和L s分别表示保真度和平滑损耗。α和β是两个正平衡参数4。保真度损失是为了保证估计照明和每个阶段输入之间的像素级一致性，公式为：

其中T是总阶段数。实际上，该函数利用了重新定义的输入y+s t−1限制输出照明x t，而不是手工制作的地面真实感或普通的微光输入。

照明的平滑特性在这项任务中是一个广泛的共识。在这里，我们采用了一个具有空间变化'1范数的平滑项，如下所示：

其中N是像素总数。i是第i个像素。N（i）表示i在其5×5窗口中的相邻像素。w i，j表示权重，其公式形式为：

其中c表示YUV颜色空间中的图像通道。σ = 0.1是高斯核的标准差。

2.4讨论

本质上，自校准模块在学习更好的基本块（本工作中的照明估计块）时起辅助作用，该基本块级联以生成具有权重共享机制的整体照明学习过程。更重要的是，自校准模块赋予了每个阶段结果之间的收敛性，但在现有工作中尚未对其进行探索。此外，SCI的核心思想实际上是引入额外的网络模块用于辅助训练，但不用于测试。它改进了模型表征，以实现仅使用单个块进行测试。也就是说，可以将“权重共享+任务相关自校准模块”机制转移到处理其他加速任务。

3.探索算法特性

在本节中，我们对提出的SCI进行了探索，以深入分析其特性。

3.1操作不敏感适应性

一般来说，基于网络的方法中使用的操作应该是固定的，并且不能随意更改，因为这些操作是在大量实验的支持下获得的。幸运的是，我们提出的算法在Hθ的不同极为简单甚至原始的设置上表现出令人惊讶的适应性。如表1所示，我们可以很容易地观察到，我们的方法在不同设置（块3×3卷积数+ReLU）之间获得了稳定的性能。此外，我们在图4中提供了视觉比较，可以很容易地观察到，我们的具有不同设置的SCI都使弱光观察变亮，显示出非常相似的增强结果。回顾我们设计的框架，可以获得这个属性，因为SCI不仅转换了照明共识（即剩余学习），而且集成了物理原理（即元素分割操作）。该实验也验证了我们设计的SCI的有效性和正确性。

表1.MIT测试数据集上Hθ不同设置之间的定量比较。其中，基本块包含一个大小为3×3的卷积层和一个ReLU层。“块”和“通道”分别表示基本块的数量和基本块中通道的变化。

图4.表1中不同案例之间的视觉比较。

3.2模型无关通用性

如果不限制任务相关自校准模块，我们的SCI实际上是一种广义学习范式，因此理想情况下，它可以直接应用于现有工作。在这里，我们以最近提出的代表性作品RUAS为例进行了探索。表2和图5展示了使用SCI训练RUA前后的定量和定性比较。显然，虽然我们仅使用RUAS展开过程中使用的单个块（即RUAS（1））来评估我们的训练过程，但性能仍然得到了显著改善。更重要的是，我们的方法可以显著抑制原始RUA中出现的过度暴露。这个实验反映了我们的学习框架确实足够灵活，并且具有很强的通用性。此外，它表明，我们的方法可能可以转移到基于任意照明的微光图像增强工作中，我们将在未来尝试这样做。

表2.SCI可用于改善现有工程的性能，例如RUA。其中RUAS（d）表示采用d个迭代块进行RUAS中出现的展开过程。这里我们采用LSRW数据集进行测试。

图5.表2中不同案例之间的视觉比较。

4.实验结果

在本节中，我们首先提供了所有实现细节。然后我们进行了实验评估。接下来，我们将增强方法应用于深色人脸检测和夜间语义分割。最后，我们对SCI进行了算法分析。所有实验都是在带有单个TITAN X GPU的PC上进行的。

4.1实施细节

参数设置。在训练过程中，我们使用了参数β1=0.9、β2=0.999和∈为10的八次方。小批量大小设置为8。学习速率初始化为10−4.训练历元数设置为1000。根据第3.1节的结论，我们在所有实验中采用3个卷积+ReLU和3个通道作为Hθ的默认设置。自校准模块包含四个卷积层，其中确保训练过程的轻量级。事实上，网络的形式可能不是固定的，我们已经在补充材料中做了实验来验证它。

比较方法。对于弱光图像增强，我们将SCI与最近提出的四种基于模型的方法（包括LECARM、SDD、STAR）、四种高级监督学习方法（包括RetinexNet、KinD、FIDE、DRBN）和四种无监督学习方法（包括EnGAN、SSIENet、ZeroDCE和RUAS）进行了比较。对于深色人脸检测，除了在检测器之前执行上述基于网络的增强工作外，我们还比较了最近提出的深色人脸检测方法HLA。

基准描述和指标。对于弱光图像增强，我们从MIT数据集中随机抽取100幅图像，从LSRW数据集中随机抽取50幅测试图像进行测试。我们使用了两个完全参考指标，包括峰值信噪比和SSIM，以及五个非参考指标，包括DE、EME、LOE和NIQE。对于深色人脸检测，我们使用了由1000张挑战性测试图像组成的深色人脸数据集，这些图像是从2021 CVPR举行的UG2+PRIZE挑战赛的子挑战中随机抽样的。我们将检测准确率和召回率作为评估指标。对于夜间语义分割，我们使用ACDC中的400幅图像进行训练，剩余的106幅图像作为评估数据集。评估指标定义为IoU和mIoU。

4.2基准测试评估

绩效评估。如表3所示，我们的SCI取得了有竞争力的表现，尤其是在无参考指标方面。如图6-7所示，高级深度网络生成未知面纱，导致不明显的细节和不自然的颜色。通过比较，我们的SCI以生动的颜色和突出的纹理获得了最佳的视觉质量。更多的视觉比较可以在补充材料中找到。

图6.MIT数据集上最先进的微光图像增强方法的视觉比较。

图7.LSRW数据集上最先进的微光图像增强方法的视觉比较。

表3.MIT和LSRW数据集上两个全参考指标（包括峰值信噪比和SSIM）和四个非参考指标（包括DE、EME、LOE和NIQE）的定量结果。

计算效率。此外，我们在表4中报告了一些最近提出的基于CNN的方法的模型大小、浮点运算和运行时间（GPU秒）。显然，与其他网络相比，我们提出的SCI是最轻的，并且显著优于其他网络。

表4基于CNN的方法和我们的SCI。

4.3野外实验评估

在野外场景中，弱光图像增强是一项极具挑战性的工作。控制图像的部分过度曝光信息、校正整体颜色和保存图像细节都是迫切需要解决的问题。在这里，我们从DARK FACE和ExDark数据集的野外示例中测试了许多具有挑战性的内容。如图8所示，通过大量实验，可以看出我们的方法取得了比其他方法更令人满意的可视化结果，尤其是在曝光级别、结构描述和颜色表示方面。由于篇幅有限，我们在补充材料中提供了更多的比较。

图8.一些野外挑战性示例的视觉比较。更多结果见补充材料。

4.4深色人脸检测

我们使用S3FD（一种著名的人脸检测算法）来评估深色人脸检测性能。注意，如原始S3FD中所示，S3FD使用更宽的人脸数据集进行训练，我们使用S3FD的预训练模型来微调通过各种方法增强的图像。

同时，我们执行了一种名为SCI+的新方法，该方法将我们的SCI作为基本模块嵌入到S3FD的前端，以便在任务损失和增强的组合上进行联合训练。如图9所示，我们的方法（SCI和SCI+）在所有比较方法中获得了最好的分数，并且增强版本获得了比微调版本更好的性能。图10进一步演示了视觉比较。很容易观察到，通过应用我们的SCI，也可以检测较小的对象，而其他方法无法做到这一点，如放大区域所示。

图9.DARK FACE数据集上的精度召回曲线。所有比较方法和SCI均根据增强结果微调检测器。SCI+是针对检测和增强的损失组合，对探测器和SCI进行联合培训。

图10.DarkFace数据集上人脸检测的视觉比较。更多结果见补充材料。

4.5夜间语义分割

在这里，我们采用PSPNet作为基线，评估所有方法在模式“预训练+微调”（类似于SCI在深色人脸检测中的版本）上的分割性能。表5和图11展示了不同方法之间定量和定性比较的结果。我们的性能明显优于其他最先进的方法。如图11中放大的区域所示，所有比较的方法都会产生一些未知伪影，从而损害生成的分割图的质量。

表5.ACDC数据集上夜间语义分割的定量结果。符号集{RO，SI，BU，WA，FE，PO，TL，TS、VE、TE、SK、PE、RI、CA、TR、MO、BI}表示{道路、人行道、建筑物、墙壁、栅栏、杆子、红绿灯、交通标志、植被、地形、天空、人、骑手、汽车、火车、摩托车、自行车}。注意，我们根据所有比较方法生成的增强结果重新训练了分割模型。最好的结果是红色，其次是蓝色。

图11.ACDC数据集上语义分割的可视化结果。更多结果见补充材料。

4.6算法分析

比较分解的组件。实际上，我们的SCI属于基于光照的学习方法，视觉质量的提高在很大程度上取决于估计的光照。在这里，我们将SCI与三种具有代表性的基于照明的学习方法进行了比较，包括RetinexNet、KinD和SSIENet。如图12所示，我们可以很容易地看到，我们估计的照明保持了良好的平滑特性。它确保了我们生成的反射比在视觉上更友好。

图12.比较不同基于照明的网络之间的分解组件。放大以获得最佳视图。

消融研究。我们比较了图13中不同模式的性能。直接学习照明会导致图像曝光过度。学习照明和输入之间残差的过程确实抑制了过度曝光，但整体图像质量仍然不高，尤其是对于细节的把握。通过比较，使用我们的方法的增强结果不仅抑制了过度曝光，而且丰富了图像结构。

图13.分析照明学习中的不同模式。

5.结束语

在本文中，我们成功地建立了一个轻量级但有效的框架，即自校准照明（SCI），用于针对不同现实场景的微光图像增强。我们不仅对SCI的优良特性进行了深入的探索，还进行了广泛的实验，以表明我们在微光图像增强、深色人脸检测和夜间语义分割方面的有效性和优越性。

更广泛的影响。从任务的角度来看，SCI提供了一个高效的学习框架，在图像质量和推理速度方面都取得了极其优异的性能。也许这将是一个支架，进入一个新的高速和高品质的时代，低光图像增强。在方法设计方面，SCI开辟了一个新的视角（即，在训练阶段引入辅助过程以增强基本单元的模型能力），以提高针对其他低级视觉问题的现实场景的实用性。

背景:

现有的低照度图像增强技术大多不仅难以处理视觉质量和计算效率，而且在未知的复杂场景中普遍无效。

问题:

1.基于模型的方法：受限于定义的正则化，前人的方法产生了不满意的结果（例如过度曝光等），并且需要针对现实世界的情况手动调整大量参数。

2.基于网络的方法：前人的深度网络设计的很好。然而，它们并不稳定，也很难实现持续的卓越性能，尤其是在未知的真实世界场景中，不清楚的细节和不恰当的暴露无处不在。

方法与步骤：

方法:

宏观：权重共享的照明学习+构建了自校准模块+无监督训练损失

具体：我们为光照学习开发了一个自校准模块，通过权重共享使每个阶段的结果趋于一致，提高了曝光的稳定性，并在很大程度上减少了计算负担。我们定义了无监督训练损失，在自我校准模块的作用下约束每个阶段的输出，赋予了对不同场景的适应能力。

步骤：

权重共享的照明学习：在低照度观察值y和期望的清晰图像z之间存在着一种联系：y = z ⊗ x，其中x代表照明成分。引入参数θ的映射Hθ来学习照度，我们提供了一个渐进的视角来模拟这一任务，基本单元被写为：

其中ut和xt分别代表第t阶段（t = 0,...,T - 1）的剩余项和照度。需要注意的是，我们没有在Hθ中标记阶段编号，因为我们采用了权重共享机制，即在每个阶段使用相同的架构H和权重θ

自校准模块：我们引入了一个自我校准的地图s，并将其添加到弱光观察中，以呈现每个阶段的输入与第一阶段的差异。具体来说，自我校准模块可以呈现为：

其中t≥1，vt为各阶段的转换输入，Kϑ3为引入的参数化算子，参数为可学习参数ϑ。那么，第t阶段（t≥1）基本单元的转换可以写成阶段（t≥1）的基本单元转换可写为

SCI框架，在训练阶段，我们的SCI由光照估计和自校准模块组成。自校准模块地图将添加到原始的微光输入中，作为下一阶段照明估计的输入。注意，这两个模块分别是整个训练过程中的共享参数。

考虑到现有配对数据的不精确性，我们采用无监督学习来扩大网络容量。

无监督训练损失：我们将总损耗定义为Ltotal=αLf+βLs，其中Lf和Ls分别表示保真度和平滑损耗。α和β是两个正平衡参数。保真度损失是为了保证估计照明和每个阶段输入之间的像素级一致性，公式为：

其中T是总阶段数。实际上，该函数利用了重新定义的输入y+s t-1限制输出照明xt，而不是手工制作的地面真实感或普通的微光输入。

照明的平滑特性在这项任务中是一个广泛的共识。在这里，我们采用了一个具有空间变化范数的平滑项，如下所示：

其中N是像素总数。i是第i个像素。N（i）表示i在其5×5窗口中的相邻像素。w i，j表示权重，其公式形式为：

其中c表示YUV颜色空间中的图像通道。σ = 0.1是高斯核的标准差。