利用ImageNet进行医学图像分析的迁移学习研究
Abstract
近年来,在非医学ImageNet数据集上经过良好训练的卷积神经网络(CNNs)使用迁移学习(TL)对医学图像进行分析中显示了有希望的结果。我们的目的是进行范围审查,以确定这些研究,并总结它们在问题描述、输入、方法和结果方面的特征。
在22个解剖区域中,眼睛(18%)、乳房(14%)和大脑(12%)是最常被研究的。在72%的微调TL研究中进行了数据增强,而在特征提取TL研究中只进行了15%。Inception模型在乳房相关研究中最常用(50%),而VGGNet在眼部(44%)、皮肤(50%)和牙齿(57%)研究中最常用。AlexNet用于脑研究(42%)和DenseNet用于肺研究(38%)是最常用的模型。Inception模型是最常用于分析超声(55%)、内窥镜(57%)和骨骼系统x射线(57%)的研究。VGGNet是最常用于眼底(42%)和光学相干断层成像(50%)。AlexNet是最常见的脑核磁共振(36%)和乳房x光(50%)模型。35%的研究将他们的模型与其他训练有素的CNN模型进行了比较,33%的研究为解释提供了可视化。
本研究在文献中确定了对于各种医学图像分析任务最普遍的数据准备方案,方法选择和输出评价。此外,我们还发现了在医学图像分析的TL研究中存在的几个关键研究空白。本文的研究结果可用于未来的TL研究中,以指导选择合适的研究方法,以及确定研究缺口和创新机会,
概述
从头开始完全训练一个CNN有两个主要要求:1)一个大的标记数据集,和2)广泛的计算和内存资源。在临床实践中,这样大的标记数据集并不总是可用的。创建大型标记数据集需要大量的劳动,而且具有特定医疗条件的患者数量可能不足以创建大型数据集。
完全训练CNN的另一种方法是迁移学习(TL)。通过利用TL,从大量非医疗数据中获得的知识可以转移到有针对性的医疗问题上
。具体来说,在具有自然图像的非医学ImageNet数据上(如AlexNet、VGGNet和ResNet),经过良好训练的CNN模型的参数可以转移到有针对性的CNN模型上,从而解决医学成像问题。
本综述旨在总结在ImageNet上使用TL方法进行医学图像分析的研究。具体来说,我们挖掘了多种研究方向,如输入数据(如数据集大小)、CNN模型、转移知识(如参数)和性能度量。我们的目的是回答以下的研究问题:1)在ImageNet数据上使用TL可以使哪些医学图像分析任务受益
?2)输入数据的特征
是什么?3)遵循了什么TL过程(例如,在CNN模型或转移参数
方面)?4)结果是什么(如,模型性能)?
文献分析
X射线(X-Ray)和磁共振成像(MRI)是最常用的影像类型,频率分别为29%和17%。眼、胸和脑是被研究最多的器官,频率分别为18%、14%和12%。总的来说,不管身体器官或成像方式如何,最常使用的CNN模型是:Inception-v3(19%)、VGG-16(18%)、AlexNet(15%)和ResNet-50(13%)。超过一半的研究(54%)进行了某种数据增强。大多数研究(65%)并没有将CNN模型与其他模型进行对比。ILSVRC是一个基于ImageNet的1000类分类挑战,大多数医学TL研究(71%)只进行了二分类。
图3显示了每个图像类型
使用特定类型的TL CNN模型的研究频率。Inception模型是分析x射线(31%)、内镜图像(57%)和超声图像(55%)的研究中最常用的模型。GoogleNet和AlexNet(各占29%)是最常用的核磁共振成像模型。VGGNet模型是最常用于分析皮肤病变(43%)、眼底图像(42%)和OCT数据(50%)。三种CNN模型在CT扫描研究中使用频率相似。
图4显示了每个解剖部位
使用特定类型的TL CNN模型的研究频率。在分析乳房图像的研究中,最常用的方法是各种Inception模型版本(50%),而VGGNet在分析眼部图像(44%)、皮肤图像(50%)和牙齿图像(57%)的研究中最常用。AlexNet和DenseNet是脑(42%)和肺(38%)研究中最常见的模型。
图5结合了图3和图4,同时考虑了成像方式和解剖部位。100%的分析乳房MRI的研究使用了GoogleNet(结合SVM分类器),而分析大脑MRI的研究使用最常用的CNN模型是AlexNet(36%)。Inception模型(特别是Inception-v3)是分析骨骼系统X光(即臀部、膝盖和手腕)的研究中最常见的(57%)。AlexNet(50%)、DenseNet(60%)和VGGNet(67%)分别是乳腺、肺部和牙齿X光分析中最常用的模型。只有少数研究分析了不带主流CNN模型的CT扫描。
图6和图7分别显示了有数据增强和没有数据增强的迁移学习方法的频率,以及每个数据集大小。数据增强在使用微调TL的研究中更为普遍(72%微调TL研究 vs. 15%特征提取TL研究)。此外,在不到1000张图像的研究中,22%的特征提取TL研究和77%的微调TL研究进行了数据增强。在1000 - 10000张图像的研究中(10% vs. 77%)以及超过10000张图像的研究中(0% vs. 55%)也观察到了类似的模式。
图8显示了每个解剖部位采用不同可视化方法的频率。33%的研究试图提供CNN模型可视化,主要是通过热力图(67%)。对大脑(58%)、肺(50%)和牙齿(43%)的图像分析研究中,最常使用可视化方法。
讨论
我们提供了众多使用ImageNet进行医学图像分析的最先进的迁移学习方法。我们的发现可以用来帮助指导研究人员识别特定医学图像分析问题的潜在最佳方法,以及值得进一步研究的领域。表4总结了这些发现和研究差距。
迁移学习方法
从成像方式的角度来看,Inception模型是最常用于研究分析X射线,内窥镜图像和超声图像这表明,具有不同卷积核大小的Inception模块的宽网络(而不是深网络)可能对这类图像更有效。
大多数关于皮肤病变(43%)、眼底(42%)和OCT图像(50%)的研究表明,VGGNet获得了更好的性能,表明具有多个小卷积核的浅CNN模型可能是处理这些图像的最佳选择。小的卷积核可能有助于更准确地捕捉图像中的细节变化。虽然有少数研究表明,VGGNet的浅层网络比深层CNN模型的性能更好,小卷积核比大卷积核的性能更好,但还需要与其他更深层的CNN模型进一步研究来证实这一假设。
在分析核磁共振成像的研究中,GoogleNet和AlexNet是最普遍的方法,这表明无需依赖非常深入的CNN模型,就可以对这类图像实现足够的准确性。
考虑到解剖部位和成像方式,Inception模型(特别是Inception- v3)是骨骼系统(如臀部、膝盖、手腕)X线分析中最普遍的模型,表明Inception模型在该区域的有效性。
同样,结合支持向量机分类器的GoogLeNet模型在乳腺MRI研究中最为普遍。对于这些解剖部位和成像方式,广域网络(如Inception模型)的有效性得到了一些与深度网络比较的基准研究的支持,但还需要更多的调查。
大多数对脑MRI图像和乳腺X射线图像的研究都获得了足够的性能,这可能表明具有大卷积核的浅CNN模型对于这些问题是最优的。
同样,在牙齿X射线研究中VGGNet的使用率较高,这表明具有小卷积核的浅CNN模型可能适合这种分析。然而,我们没有发现任何针对牙齿X光分析的基准研究;为了确定脑部MRI和牙齿X光分析的最佳模型,需要与其他CNN模型进行进一步的研究。
基于DenseNet的模型是分析肺部X光的研究中最常用的模型,这表明更深层次的CNN模型对于这个问题是最优的,但这目前只得到了两个强有力的基准研究的支持。最后,由于只有少数研究分析了不同器官的CT扫描(如牙齿,前列腺,大脑),对于这些区域的最优CNN模型的结论很少。我们推测较少的研究集中在这些解剖部位的CT图像的原因可能是相比其它解剖部位它们的临床优先级更低。
从TL方法(即特征提取或微调)的角度来看,在数据增强后小于1000张图像的研究中,大多数采用特征提取的TL方法,而在超过1000张图像的研究中,大多数采用微调的TL方法。这一发现与之前的研究一致,之前的研究显示了相似的偏好模式。然而,只有少数研究在同一任务中同时应用特征提取和微调TL方法,并比较它们的性能。因此,是否更大的数据量(如使用数据增强)或更好地选择CNN模型是决定准确性和时间和内存需求的最重要因素,目前还不清楚。
最后,对于最后的分类器,使用微调TL方法的研究使用完全连接的层(与传统分类器相反)比使用特征提取TL方法的研究(93%对68%)更多。这一选择可能受到了之前的研究结果的影响,这些研究表明,与微调TL研究相比,特征提取TL研究使用的数据集更小,因为与训练传统分类器相比,训练完全连接的层通常需要更大的数据集。
数据集大小和数据增强方法
数据增强在使用微调TL(72%)和特征提取TL(15%)的研究中更为普遍。此外,在数据集较小的研究(即,少于1000张图像)中,大多数特征提取TL研究没有进行数据增强(78%),而大多数微调TL研究进行了数据增强(77%)。另一方面,在大数据集的研究中(即超过10,000),没有一个特征提取TL研究进行了数据增强,而仍有超过一半的微调TL研究(55%)进行了数据增强。与之前的研究结果一致,这表明特征提取的TL可以用较小的数据集完成,但微调的TL需要更大的数据集,这可以通过收集大数据集(即更多标记数据)或使用数据增强来实现。
很少有研究报道各种数据大小的性能结果。因此,尚不清楚许多研究中使用的数据集的大小在多大程度上对实现所报告的性能至关重要。为每种方法和医学图像分析问题寻找最佳数据集大小的阈值是一个重要的研究缺口,因为大型数据集可能并不总是可用的。另一个研究差距是,只有图像修改(如图像旋转、平移)被用作创建新数据的方法。其他创建高质量合成图像的方法,如生成对抗网络(GAN),值得研究。
分类器性能与可视化
大多数(65%)的研究没有将CNN模型与任何其他模型进行基准测试,13%的研究只对一个模型进行基准测试。此外,比较多种模型性能的研究没有讨论解释其发现的潜在技术原因。例如,对于甲状腺结节的诊断,[84]显示VGGNet优于在VGGNet之后开发的CNN模型如ResNet和Inception,但没有提供方法论上的讨论。此外,还有许多问题区域(如肝脏、牙齿和大脑的CT扫描)只有一个CNN模型的研究。虽然所有的研究都取得了足够的性能,但我们相信,如果在每项研究中都尝试更广泛的CNN模型,则可能有进一步提高性能和/或降低复杂性的空间。因此,通过标准化的方法对系统的基准进行更强的关注对于更好地理解每个特定医疗任务的最佳方法是至关重要的。
此外,22基于7项针对不同成像模式和解剖部位的基准研究的结果,深度CNN模型总是优于其他CNN模型
。尽管结果不错,但深度CNN模型仍有待研究,并应进一步研究各种图像模式和解剖部位在特定模型下获得优异效果的潜在原因。
只有33%的研究讨论了CNN模型可视化,主要是通过热力图(67%)。这是一个值得注意的重要研究缺口。CNN模型可视化可以提供对其决策过程的见解,这对于建立传统医学界的信任至关重要。CNN模型在医疗实践中有意义的整合非常困难,除非医生能够在某种程度上理解其决策过程。CNN模型可视化也有利于研究人员作为诊断工具进一步改进CNN方法。
但这项研究存在局限性。首先,许多最初选定的研究由于缺乏足够的信息而被排除在外。标准报告对于提高该领域研究的可重复性至关重要。例如,研究应该包括对TL方法的清晰描述(即,特征提取或微调),包括扩展后的最终数据集大小,并报告所有模型的最终性能结果。其次,有很多问题的领域,只有一个研究用单一的CNN模型,我们不能做出任何结论,需要进一步研究以确定这些领域的最佳方法。第三,由于缺乏可比性基准研究,我们需要谨慎地考虑我们的方法所带来影响到底在哪里。需要使用标准化和可复制的基准测试方法进行进一步研究,以增强研究之间的可比性。最后,本研究仅限于在医学TL中使用ImageNet上训练良好的CNN模型进行图像分类。未来应该集中在将来自其他领域(基于非ImageNet数据集)的训练良好的CNN模型应用于医学图像分类以及其他医学图像任务(如图像分割)的研究上。
结论
我们系统地回顾了在非医学ImageNet数据集上使用训练良好的CNN模型进行医学图像分析的TL研究。无论是数据大小、数据增强方法、CNN模型还是迁移学习方法,研究在目标任务上都普遍取得了合理的表现。这表明,使用ImageNet作为非医学数据集进行迁移学习,可能是处理医学任务的一种有效方法。本研究确定了文献中最普遍的执行流程,用于数据准备、方法选择和各种医学图像分析任务的输出评价。最流行的模型包括广泛的CNN模型,使用Inception模块的超声波,内窥镜和骨骼系统X射线;使用带大卷积核的浅CNN,即AlexNet主要用于大脑MRI和乳房X光;深度CNN模型与DenseNet肺x射线;以及使用VGGNet模型对眼部(包括眼底和OCT图)、皮肤和牙科X光片的小卷积核的浅CNN模型。特征提取TL在较小的数据集中最流行,而微调TL需要更大的数据集,有时通过数据增强来实现。最后,用于最终分类的完全连接层在更大的数据集中也更普遍。
我们发现在医学图像分析的TL研究中存在一些空白。首先,大多数研究并没有将CNN模型与其他模型进行对比。通过标准化的方法关注系统的基准,这对于理解每个医学成像任务的最佳模型是至关重要的。其次,基于7项基准研究的结果,未来研究应进一步研究各种图像形态和解剖部位的深度模型。第三,只有少数研究在同一任务上应用并比较了特征提取和微调TL方法,无论是更大的数据量还是更好地选择CNN模型,都是优化准确性、时间和内存的重要因素,还需要进一步的研究。第四,由于大型数据集可能并不总是可用的,为每个医学图像分析问题寻找最佳数据集大小阈值是一个重要的研究缺口。第五,除了传统图像修改(如图像旋转、转换),探索其他数据增强方法,如生成对抗网络(GAN)值得研究。第六,大多数研究没有应用可视化技术来提供对CNN模型决策过程的见解。将CNN模型有意义地整合到医疗实践中是困难的,除非医生能够在某种程度上理解算法结论背后的原理。最后,需要对每个成像方式/解剖部位的研究进行深入分析,以提供对每个特定任务中的最佳方法和机会的更深入的见解。