论文:arxiv.org/abs/2110.06465
代码:https://github.com/Kid-Liet/Reg-GAN
摘要
监督Pix2Pix和非监督的Cycle-consistency是医学图像到图像转换领域的两种模式。但这两种模式都是不理想的。Pix2Pix模式具有出色的性能,但它需要像素级对齐的图像。像素级对齐的医学影像数据集很难获取,是因为通常两种模态的影像不是同时采集的,在此期间患者的呼吸运动、身体解剖结构的变化等都会导致两组图像的misalignment。Cycle-consistency模式对训练数据不那么严格,并且在像素未对齐的图像上效果很好,但它的性能可能不是最佳的。为了打破现有模式的困境,我们提出了一种新的医学图像生成的无监督模式RegGAN,它基于“loss-correction损耗修正”理论。在RegGAN中,未对齐的数据可以当作是有噪声的标签,在生成器上使用一个额外的配准网络可以自适应地拟合这种噪声分布,目标是为图像到图像的转换和配准任务寻找共同的最优解。我们将RegGAN集成到几种最先进的图像到图像转换方法中,并证明RegGAN可以轻松地与这些方法结合,以提高它们的性能。在此模型中使用简单的CycleGAN也会超过较新的使用了更少的网络参数的NICEGAN。根据我们的结果,RegGAN在对齐数据上优于Pix2Pix,在未对齐或未配对数据上优于Cycle-consistency。RegGAN对噪声不敏感,这使得它在很多场景下都是好的选择,特别是在无法获得良好对齐像素数据的医学图像到图像转换任务中。本研究使用的代码和数据可在https://github.com/Kid-Liet/Reg-GAN上找到。
1.介绍
生成对抗网络[1]是一个对抗的过程,并同时训练生成器G和判别器D。生成器用于将源域图像的分布转换为目标域图像的分布。判别器是用于确定目标域图像是来自生成器还是自真实数据。
监督Pix2Pix[2]和非监督Cycle-consistency[3]是GAN中常用的两种模式。Pix2Pix通过最小化源图像和目标图像之间的像素级损失来更新生成器(G:X→Y)。因此,它需要良好对齐的成对图像,其中每个像素都有相应的标签(公式2)
然而,成对图像比较难获得。为了解决图像不对齐的问题,我们开发了Cycle-consistency,它有两个生成器G和F分别完成从X→Y和Y→X的生成。与Pix2Pix模式相比,Cycle-consistency模式在像素未对齐的图像上效果得更好。
但是Cycle-consistency模式有其局限性。在医学图像到图像的转换中,不仅需要图像域之间的风格转换,还需要特定特征的成对图像转换,最优解应该是唯一的。例如,转换后的图像应尽可能保持原图像的结构特征。Cycle-consistency模式可能会产生多个解[4,5],这表明着训练过程不稳定,结果不准确。但即使pix2pix有唯一解,它的模式也是不理想的,像素级对齐的图像很难获取。对于像素级不对齐的图像,误差通过Pix2Pix模式传播,这可能导致最终翻译的图像出现不合理的位移。
到目前为止,图像到图像的转换模式中,没有模型可以在对齐数据上优于Pix2Pix模式,在未对齐或未配对数据上优于Cycle-consistency模式。受[6-10]的启发,我们将未严格对齐的数据当视为有噪声的标签未,即将存在的问题视为带有噪声标签的监督学习。因此,我们引入了一种新的图像到图像的转换模式——RegGAN。图1提供了Pix2Pix、Cycle-consistency和RegGAN三种模式的比较。文章贡献总结如下:
•基于“损失校正”的理论角度论证了RegGAN算法的可行性。具体地说,我们使用一个额外的配准网络可以自适应地拟合这种噪声分布,目标是为图像到图像的平移和配准任务寻找共同的最优解。
•RegGAN消除了成对图像的要求,并在训练过程中得到唯一的解。根据我们的结果,RegGAN在对齐数据上优于Pix2Pix,在未对齐或未配对数据上优于Cycle-consistency。
•RegGAN可以在不改变原有的网络架构基础上集成到其他方法中。与使用两个生成器和判别器的 Cycle-consistency相比,RegGAN可以使用更少的网络参数提供更好的性能。
2.相关工作
图像到图像的转换:生成对抗网络(Generative adversarial networks, gan)在图像到图像的转换领域显示出巨大的潜力[11-16]。该算法已成功应用于医学图像分析中,如分割[17]、配准[18,19]和剂量计算[20]。然而,现有的模式也有其局限性。具体来说,Pix2Pix模式[2]需要对齐良好的成对图像,但数据获取困难。Cycle-consistency 可以实现无监督的图像到图像的转换,可以用于不成对的图像。基于Cycle-consistency延展了许多方法[3,21 - 30],包括CycleGAN[3]及其变体,如MUNIT[31]和UNIT[32],其中图像内容和风格信息都被用于解耦合和重构图像到图像的翻译任务;添加自注意机制的U-gat-it[33];NICEGAN[34]提出将该判别器复用用于编码。循环一致性的主要限制是它可能产生多个解,因此对扰动很敏感,难以满足医学图像到图像翻译任务的高精度要求。
学习噪音标签:神经网络抗噪声训练取得了很大的进展。目前的研究主要集中在:估计噪声转移矩阵[7,35 - 40]、设计鲁棒损失函数[41-44]、校正噪声标号[45-50]、重要性样本加权[51-55]和元学习[56-59]。我们的工作属于估计噪声转移矩阵的范畴。与传统的噪声转移估计方法相比,该方法通过获取噪声分布的先验知识来减轻问题,简化任务。
与我们的工作最接近的工作是Arar.M 等人[5],提出了一种基于几何保持的自然图像多模态配准方法。但他们的工作仅仅焦于配准的效果而没有讨论这对于图像翻译的意义。我们的工作的关键观点是,我们证明了在医疗影像生成框架中使用配准网络能够带来显著的性能提升,因为噪声可以在训练过程中自适应地消除。本文提出的是一种全新的医学图像到图像的转换模式。
3方法
3.1理论
如果我们将错位的目标图像视为有噪声的标签,那么图像到图像的转换训练就变成了有噪声标签的有监督学习过程。给定一个训练数据集 具有N个噪声标签,其中Xn和y`n是来自两种模式的图像,并假设yn是Xn的干净的标签,但它在现实场景中是未知的。我们的目标是使用带有噪声标签的数据集 训练一个生成器,并尽可能达到在干净数据集上训练的性能。公式4的直接优化通常是行不通的,因为生成器无法消除噪声的影响,会导致不好的结果。
为了解决噪声问题,我们提出了一个基于“损耗校正”[7]的解决方案,如方程5所示。
我们的解决方案通过模拟噪声转移来匹配噪声分布从而修正生成器G(Xn)的输出。之前,Patrini等人[7]用数学证明了,如果噪声过渡与噪声分布相匹配,使用噪声标签训练的模型与使用干净标签训练的模型可以等效。
为了实现这一点,Goldberger等人[36]提出将正确的标签视为一个潜在的随机变量,并明确地将噪声标签作为网络结构的一部分,用R表示。然后,将式5改写成对数似然的形式,作为神经网络训练的损失函数。
3.4REGGAN
与现有的方法相比,采用最大期望[7,36],采用全连通层[35]、锚点估计[37]和Drichlet-distribution分布[38]求解式6。在我们的问题中,噪声分布的类型比较清楚,它可以表示为位移误差:y~=y◦T, T表示为一个随机形变场,它对每个像素产生随机位移。因此,我们采用一个配准网络R,在生成器G的标签噪声模型后对结果进行校正。修正损失如式7所示:
式中,表示形变场,◦表示重样操作。配准网络基于U-Net[61]。式8定义平滑损失[62],以评价变形场的平滑度,使形变场的梯度最小
最后,在生成器和判别器之间的添加Aversarial loss(式1),总损失如式9所示。
4.实验
RegGAN的性能评估通过三个调查进行
1)论证RegGAN模式在各种方法中的可行性和优越性
2)评估RegGAN对噪声的敏感程度
3)3)探索RegGAN在非配对数据上的可行性。
4.1数据集
开放存取数据集(BraTS 2018[63])用于评估提议的RegGAN模式。训练数据集和测试数据集分别包含8457和979对T1和T2 MR图像。之所用BraTS 2018做数据集,因为有配对良好的图像。通过在原始图像上随机添加不同级别的旋转、平移和缩放来创建不对齐的图像。在训练未配对的图像时,我们从T1随机抽取一幅图像,从T2随机抽取另一幅图像。对于对齐良好的成对图像、未对齐的成对图像和未成对图像,我们可以评估所有三种模式(Pix2Pix、Cycle-consistency和RegGAN)的性能。
4.2 不同方法上的效果
引入RegGAN的主要是为解决由数据不一致问题。因此,在本节中,我们使用不对其数据据进行模型训练,以证明RegGAN的可行性和优越性。我们选择最流行的CycleGAN[3]及其变体MUNIT[31]、UNIT[32]和NICEGAN[34]作为评价方法,并对每种方法。以下四种模式进行比较。
•C(Cycle-consistency):所有方法中最原始的模式,以Cycle-consistency loss(式3)为主要约束。在这种模式下需要两个生成器和两个判别器。
•C+R (Cycle-consistency + Registration):将RegGAN模式与C模式结合,在约束中加入配准网络®和校正损失(式7)。
•NC(非周期一致性):仅使用对抗损失(公式1)进行更新。与C相比,消除了周期一致性损失。在这种模式下只需要一个生成器和一个判别器。
•NC+R(非周期一致性+配准):在NC中加入配准网络®和校正损失(公式7)。建议使用RegGAN模式。
为了保证比较的公平性,我们对所有的方法和模式都使用了相同的训练策略和超参数(详见补充资料)。采用归一化平均绝对误差(NMAE)、峰值信噪比(PSNR)和结构相似性(SSIM)作为指标,基于测试数据集评价训练模型的性能。为了避免索引的假高结果,我们将图像背景排除在计算之外。表1总结了当前实验中所有方法和模式的结果。
根据表1的结果,我们可以得出几个结论。首先,加入配准网络(+R)显著提高了方法的性能。在C和NC模型中都是适用的。这清楚地说明了RegGAN可以通过多种方式合并或与不同的网络架构相结合来提高性能。第二,在大多数方法上,C通常比NC效果好。加入配准网络(+R)后,C的性能比NC的性能有了更大的提高。实际上,我们的结果表明,NC+R甚至优于C+R,这意味着当它与RegGAN结合时,“Cycle-consistency loss”可能会起到负面作用。与常用的两个生成器两个鉴别器的C相比,RegGAN参数更少,但性能更好。简单的CycleGAN方法在NC+R下的NMAE、PSNR和SSIM分别比目前最先进的NICEGAN方法在C下的NMAE、PSNR和SSIM分别高出0.01、0.4、0.03。此外,NC+R也可以用来提高NICEGAN的性能。实际上,NICEGAN在NC+R下的性能在4种方法和4种模式组合中是最好的。
(图2显示了4种方法(CycleGAN, MUNIT, UNIT和NICEGAN)和4种模式(C,C+R,NCandNC+R)的不同组合的代表性结果。对于图像的所有方面(从肿瘤区域和细节),使用配准网络(+R)的组合总是比不使用配准网络(+R)的组合提供更真实和准确的结果。
4.3不同噪声等级下的性能
为了评估RegGAN对噪声的敏感性,我们选择了一种简单的网络结构(CycleGAN),以尽量减少其他因素的干扰。CycleGAN©、Pix2Pix和RegGAN三种模式都使用了相同的网络架构。在评估中使用了六个级别的噪声。表2列出了每个噪音级别的具体噪音设置和范围。0表示没有添加噪声的原始数据集。5是最高级别的噪音。在Noise.5,数据可能来自不同的病人。图3显示了引入不同噪声水平的示例图像。
表2列出了6级噪声下3种模式的定量评价指标。很明显,RegGAN在所有噪音水平下都优于CycleGAN©。图4(a)显示了RegGAN和CycleGAN©训练过程中每个epoch的测试结果。不同颜色的曲线对应不同程度的噪声。我们注意到CycleGAN©在训练过程中不是很稳定。试验结果波动较大,收敛性较差。这可能是由于CycleGAN ©的结果不是唯一的原因。RegGAN作为比较组效果相当稳定。虽然不同程度的噪声在训练开始时产生的结果可能会有所不同,但经过多个时段的训练后,所有曲线都收敛到相似的结果,说明RegGAN比cyclecgan ©对噪声的鲁棒性更强。
由表2可知,随着噪声的增加,Pix2Pix的性能急剧下降。这是预期的,因为Pix2Pix需要良好对齐的成对图像。令人惊讶的是,RegGAN在所有噪声水平下的性能都超过了Pix2Pix在无噪声情况下的性能。图4(b)显示了RegGAN和Pix2Pix在noise .0(即无噪声)下每个epoch的测试结果。理论上,RegGAN和Pix2Pix在完全对齐的成对数据集上的性能应该是相似的,因为RegGAN的配准网络没有帮助,而且RegGAN与Pix2Pix是等价的。对我们的结果的一个可能的解释是,在医学领域,像素完全对齐的数据集可能实
际上并不存在。即使对于被认为是对齐良好的BraTS 2018[62]数据集,仍然有可能存在轻微的错位。因此,添加配准网络总是有可能在现实场景中提高性能。为了验证我们的解释,我们绘制了RegGAN在不同噪声水平下的平滑损失,如图4©所示。平滑损失越大,变形场位移越大。首先,我们注意到在Noise.0下的平滑损失并没有完全趋近于0,这表明配准网络存在错位和潜在的有用性。其次,噪声水平与平滑损失呈阶梯状正相关,这意味着RegGAN可以自适应地处理噪声分布,即配准网络可以根据噪声水平确定变形范围。
图4:训练过程中不同时期的定量评价指标(a)不同噪声水平下CycleGAN和RegGAN的比较(b) Pix2Pix和RegGAN在noise. 0(即无噪声)的比较©不同噪声水平下RegGAN的平滑损失
图5:原始图像对及其变形场的不对称
我们还展示了一些原始图像对,并将配准网络输出的相应变形场可视化,如图5所示。很明显,原始T1图像和T2图像之间存在一定的错位,这种错位在变形场(红色圆圈突出显示)来表示。
4.4未配对数据集性能
到目前为止,我们的调查是基于成对的数据集。我们还想探索RegGAN使用未配对的数据集上的效果。在实践中,这是不推荐的,因为即使是不同的病人,他们相邻层的身体组织也可能有相似的。对于未配对的数据集,我们可以先在三维空间进行刚性配准,然后使用RegGAN进行训练。未配对的数据可以被视为具有更大规模的噪声。如果修正能力足够强,RegGAN仍然可以有效地工作。图6显示了未配对数据集上三种模式的性能比较。
对于未配对的数据集,Pix2Pix不再考虑输入T1图像的特征,因此性能最差。由于在拟合噪声方面存在挑战,使用未配对数据集的RegGAN替换CycleGAN©的性能改善可能不如使用配对数据集的效果显著,但RegGAN在未配对条件下仍然具有最佳性能。在图7中,我们展示了RegGAN如何校正未配对数据集上的噪声的一些示例。可见,RegGAN会通过配准来尽量消除噪声的影响。
根据我们的研究结果,可以得出以下结论。在所有情况下,RegGAN的性能都优于Pix2Pix和CycleGAN©。
图6:三种模式(CycleGAN©, Pix2Pix和RegGAN)在未配对数据集上的性能比较
图7:RegGAN在未配对数据上的输出显示。T1a和T2是未配对图像。Translated
表示T1到T2的平移结果。Registered r表示图像的配准结果。D.F表示形变场。
•对于配对和对齐的情况下,RegGAN≥Pix2Pix>CycleGAN©。
•对于配对但未对齐的情况,RegGAN>CycleGAN©>Pix2Pix。
•对于未配对的情况,RegGAN>CycleGAN©>Pix2Pix
总结
在本研究中,我们向医学界引入了一种新的图像到图像的翻译模式RegGAN,它可以打破图像到图像转换的困境。我们使用公共BraTS 2018数据集演示了RegGAN的可行性及其与Pix2Pix和Cycle-consistency相比的优越性能。我们验证了RegGAN可以被整合到各种现有的方法中来提高它们的性能。我们还评估了RegGAN对噪声的敏感度。我们的结果证实RegGAN能够很好地适应从无噪声到大规模噪声的各种场景。RegGAN的优越性能使得无论数据集是否对齐,它都是比Pix2Pix和Cycle-consistency更好的选择。然而,这种模式在自然图像上可能不能很好地工作。由于自然图像中的差异远远大于医学图像中的差异,噪声不能简单地认为是变形误差。
更广泛的影响
图像到图像的转换有助于诊断和治疗,所以图像之间的转换一直是医学图像分析的重点之一。在此之前,医生需要使用不同的医学成像设备来获取不同的病人的图像序列,这既耗时又昂贵。Pix2Pix模式有望通过其在图像到图像转换方面的出色表现解决这一问题。然而,在大多数临床场景中,为Pix2Pix模式创建如此大的对齐良好的数据集是不实际的。周期一致性模式不需要良好对齐的数据集,但不能满足医学图像分析的高精度要求。我们的工作旨在提供一种通用的9幅图像到图像的翻译模式,这种模式不仅对数据集没有严格的要求,而且在图像质量方面也能满足临床的要求。未来,我们将尝试获取多模态数据集(如MR-CT)进行临床验证。我们预计,如果该模式应用于放射诊断、治疗计划和研究,将产生积极的影响。
附:
所有的实验都是在64位Ubuntu Linux系统下使用Pytorch软件实现的,该系统具有96GB RAM和24GB Nvidia Titan RTX GPU。所有图像归一化到[- 1,1],然后重新采样到256×256。我们使用亚当优化器训练所有的方法,学习率为1e-4和(β1,β2) =(0.5, 0.999)。批大小设置为1,重量衰减为1e-4。训练过程
共包含80个纪元,超过640K次迭代。我们还为不同的损失函数设置了不同的权重,如表3所示。
定义:在图像到图像的转换任务中,目标是优化并获得生成器G: 。其中(x, y)是成对对齐的多模态图像,图像空间。是损失函数。但在实践中,我们只能得到噪声标签(x,),而正确的标签y是未知的。与y的关系可以表示为位移误差:。 T表示为一个随机变形菲尔德,为每个像素产生位移。如果我们可以构建一个无偏估计量模型R,它可以很好的适应噪声分布T,这样在预期标签噪音纠正损失等于原来的干净数据计算。
定理1。假设变形场T足够光滑。则噪声分布下修正损失的最小值与清洁分布下原始损失的最小值相同:
**
注意:文章公式4.5.6有误,应改为如下
**