Bootstrap

5.25.10 基于 Yolo 的乳房 X 光检查乳腺癌检测模型

YOLO通过将图像划分成网格,并在每个网格单元中预测边界框和类别概率,能够在一次前向传播中同时获得所有边界框的位置和类别信息。这种设计使得YOLO在处理速度和实时性方面表现出色,适用于各种实际应用场景,如自动驾驶、视频监控等。

摘要

旨在实现一种自动化数据驱动的乳房 X 线照片乳腺癌检测模型,以支持医生在乳腺癌筛查或检测计划中的决策过程。公开的 CBIS-DDSM 和 INbreast 数据集被用作在全视野数字乳房 X 线照片专有数据集上实现迁移学习技术的来源。

专有数据集反映了一个真实的异构案例研究,包括 190 个肿块、46 个不对称和 71 个扭曲。比较了几种 Yolo 架构,包括 YoloV3、YoloV5 和 YoloV5-Transformer。此外,实施了 Eigen-CAM 进行模型自省,并通过突出显示乳房 X 线照片内所有可疑的感兴趣区域来输出解释。

小型 YoloV5 模型产生了最佳开发解决方案,在专有数据集上获得了 0.621 的 mAP。

通过 Eigen-CAM 计算的显着性图已被证明是一种能够报告所有感兴趣区域的解决方案,即使在错误的预测情况下也是如此。Eigen-CAM 可大幅降低假阴性发生率,但假阳性发生率会有所增加。尽管专有数据集上存在难以识别的异常,例如不对称和扭曲,但经过训练的模型仍表现出令人鼓舞的检测能力。

1. 介绍

假阳性和假阴性的问题仍然存在。大多数这些错误可以归因于致密的乳房(掩蔽效应),以及人为因素,例如放射科医生的感知和错误的决策行为。此外,肿瘤固有的成像特性也是造成这一问题的原因之一,良性肿块通常类似于恶性肿块,而恶性肿块有时模仿良性肿块。在乳腺癌诊断过程中,医生的目标是检测整个乳房 X 光检查中的所有感兴趣区域 (ROI):肿块、钙化、扭曲等。在疾病早期进行检测对于规划新的检查、治疗或干预措施至关重要。另一方面,漏检可能会给患者造成不可逆转的伤害。

文献中提出的几种解决方案并非旨在分析整个图像,而是将检测限制在块分类上:首先手动选择和裁剪 ROI,然后训练分类器以区分裁剪。但是,为了支持和模仿医生的诊断过程,需要一种能够检测整个乳房 X 光片内所有 ROI 的架构。

Faster R-CNN、RetinaNet Yolo 促进了乳腺癌检测系统的发展 [4–7]。这些框架无疑带来了两个主要困难:(1)模型必须学习整个乳房 X 光片的特征,训练所需的图像大小调整可能会导致关键细节的丢失;(2)由于模型必须检测所有健康组织块(即非 ROI)中的所有 ROI,因此不可避免地会出现错误率增加的情况。然而,Yolo 已被证明在众多场景中是一款出色的工具,其准确率和推理速度都高于其他物体检测器竞争对手 [8]。

在 [9] 中,使用 CBIS-DDSM 和 INbreast 数据集对 YoloV5 纳米、小型、中型和大型模型进行了比较和评估。此外,尚未研究使用 YoloV3 等更深层次的架构是否可以在小型数据集的情况下提高检测性能。此外,考虑到它们的泛化能力,将 Transformer 块合并到 Yolo 中的潜在优势尚未被研究。在这项工作中,提出了一种基于 YoloV5 的乳腺癌检测模型,以支持医生的诊断过程。对 YoloV3 [10] 中提出的其他特征提取器(如 Darknet53)和 Vision Transformer [11] 进行了比较

1.1 数据集

利用预训练使用小数据集进行训练代表了未来的发展方向,可以提供支持医学领域认知和决策过程的可信系统 [13]。因此,CBIS-DDSM [14] 和 INbreast [15] 数据集被用作源数据集,专有数据集被用作目标数据集。与 CBIS-DDSM 和 INbreast 相比,专有数据集包括更难识别的病变,例如不对称和扭曲,这些病变具有重要的临床意义 [16]。 专有数据集是在大学医院“Paolo Giaccone”(意大利巴勒莫)的放射科获取和注释的。所执行实验的工作流程如图 所示。

CBIS-DDSM 数据集被用作源,在 INbreast 目标数据集上评估几种基于 Yolo 的架构(YoloV3、YoloV5(n、s、m、l)和 YoloV5-Transformer)。然后,使用训练最佳的架构(YoloV5s)在专有数据集上进行质量检测。在训练阶段之前以及训练期间执行了数据增强程序以平衡类别。输出包括边界框预测和突出显示乳房 X 光检查内所有 ROI 的热图。

1.2 可解释性问题

无梯度方法 Eigen-CAM [20] 用于显著图计算,并与遮挡敏感度方法进行了比较。显著图用于验证学习模型并突出显示预测过程中涉及的最重要的像素。

以热图形式报告区域比 ROI 预测更能引导医生的注意力:ROI 仅在某个置信度阈值以上才会预测和显示,而最难找到的区域可能不会超过此阈值。这样,通过引导医生对不同ROI的关注,就可以支持复杂、繁琐和令人精疲力尽的乳房X光检查评估过程。

1.3 创新点

1.3.1 创新点 1

虽然数据驱动的方法在各种医疗场景中都表现出了高性能,但它们缺乏透明度,导致医生和患者都对这些新技术持怀疑态度。这种怀疑在临床决策支持系统 (CDSS) 的开发中尤为突出,因为 了解决策过程和确保系统可靠性是促进诊断过程的关键先决条件。传统的机器学习方法不足以满足这些需求,也无法为系统做出的决策提供依据。引入乳腺癌检测的可解释性至关重要,因为乳房 X 线摄影筛查有可能早期发现侵袭性疾病。很多时候,这些病变可能并不明显,可能无法达到 Yolo 中设定的置信度阈值以返回检测结果。

相反,无梯度 XAI(可解释人工智能) 方法可以不受最终输出的影响,并且可以在诊断过程中提供有价值的帮助,即使在涉及不准确或低置信度预测的情况下也是如此。显著性图被认为是增强 YoloV5 预测能力的有力工具。

1.3.2 创新点 2

从意大利巴勒莫大学医院“Paolo Giaccone”的放射科获取了一个专有数据集,用于模型评估。与 CBIS-DDSM 和 INbreast 不同,该数据集包含一个真实的临床数据集,其中包含大量病变,这些病变在识别方面更为复杂,包括不对称和扭曲。这些具有挑战性的病例具有重要的临床意义 [16]。此外,训练过程涉及使用三个数据集,使最终模型能够整合从 CBIS-DDSM 和 INbreast 数据集获得的知识。

1.3.3 创新点3 

Transformers [11] 在 Yolo 中的集成。Transformers 对大型语言模型和计算机视觉任务产生了巨大影响。然而,Transformers 缺乏卷积神经网络 (CNN) 中发现的某些固有偏差,例如平移等变性和局部性。因此,当使用有限量的数据进行训练时,Transformers 可能无法很好地泛化。

2. 相关工作

Soulami 等人 [24] 还提出了一种名为 CapsNet 的 CNN 来解决 ROI 的分类问题。将乳腺肿块分类为正常、良性和恶性肯定比将肿块二分类为正常和异常更复杂。

Ragab 等人 [25] 使用 AlexNet、GoogleNet 和 ResNet-18-50-101 作为特征提取器,并使用支持向量机作为分类器,在块级解决了乳腺癌分类问题。他们还通过深度特征融合和随后的主成分分析应用来评估分类。

Yu 等人 [26] 探索了几种用于肿瘤或正常 ROI 分类的方法和 CNN 架构。使用两个基于 VGG16 的深度融合模型对从原始 ROI 中提取的不同斑块进行分类,并通过多数投票获得最终预测。 

在 Agarwal 等人 [27] 的论文中,使用滑动窗口方法扫描整个乳房并从图像中提取所有可能的癌症斑块。训练了几个基于斑块的 CNN(VGG16、ResNet50 和 InceptionV3)进行乳腺癌检测,即对正斑块和负斑块进行分类。 

上述研究训练的卷积模型可以区分 ROI,而无需识别它们。然而,在乳房筛查阶段,检测所有 ROI 并随后规划新的干预措施至关重要。

Jung 等人 [7] 使用 RetinaNet 作为物体检测器,自动定位整个乳房 X 光检查中的肿块(良性和恶性)。

AlGhamdi 和 Abdel-Mottaleb [28] 提出了一种用于匹配检测到的肿块的双视图深度卷积神经网络 (DV-DCNN)。作者使用 RetinaNet [29] 进行肿块检测,并使用 DV-DCNN 架构确定来自同一乳房的头尾 (CC) 和内外斜 (MLO) 视图的两个块是否代表同一肿块,即一对阳性。

[4] 提出了一种基于 Yolo 的计算机辅助诊断 (CAD) 用于肿块检测和分类,证明该系统也适用于肿块位于胸肌或密集区域的情况。 Aly 等人 [5] 认为乳房 X 线检查的评估过程非常单调、累人、冗长、昂贵,而且对于人类读者来说很容易出错。事实上,他们提出了一个 YoloV3 模型用于大规模检测和分类。他们使用增强数据集获得了最公平、最准确的性能。

考虑了用于乳腺癌检测的新特征提取器。将 YoloV5 架构与之前的 YoloV3 模型进行了比较,并考虑了 Vision Transformer 模块。此外,Eigen-CAM 被用作可解释的 AI 算法 [30, 31],以提供事后解释。将 Eigen-CAM 方法与遮挡灵敏度进行了比较。生成的显着性图用于两个主要原因:(1) 作为解释性调试工具,用于防止输出不足 [32, 33] 和 (2) 即使在预测不正确的情况下也能引导医生的注意力。

Occlusion Sensitivity 通过遮挡(即occlude)图像的某个部分,并观察网络对于遮挡后图像的响应变化,我们可以推断出哪些区域对于网络的决策更为重要。

如果遮挡某个区域后,网络的预测概率发生了显著变化,那么可以认为这个被遮挡的区域对于网络的决策起到了关键作用。这种方法有助于我们更好地理解神经网络的工作机制和决策依据,进而改进网络结构或优化训练过程。

3. 材料和方法

3.1 数据集

3.1.1 CBIS-DDSM 数据集

CBIS-DDSM 数据集 [14] 是乳房 X 线摄影筛查数字数据库 (DDSM) 数据集的精选版本,由扫描的乳房 X 线摄影胶片组成。该数据集以肿块为重点,共包含 1514 张图像,共 1618 个病变(850 个良性和 768 个恶性)。在总共 1696 个病变中,有 78 个因图像尺寸与其掩模尺寸不匹配而被丢弃,从而生成与病变不匹配的 ROI。

3.1.2 INbreast 数据集

INbreast [15] 数据集包含 410 张全视野数字乳房 X 光片 (FFDM),分为正常、良性和恶性。仅选择了 107 张阳性图像,Bi-Rads > 3 的病变被认为是恶性的;其他的被标记为良性。考虑到一些图像包含多个病变,总共识别出 40 个良性和 75 个恶性 ROI。

3.1.3 专有数据集

该数据集由 278 个 FFDM 组成,共包含 307 个病变,由负责识别异常区域的专业放射科医生进行注释。图像的空间分辨率和像素大小分别为 5928 × 4728 和 50 µm。图像注释以灰度软拷贝演示状态 (GSPS) 格式保存,符合 DICOM 标准。 所有由放射科医生识别的 ROI 都用外接圆进行注释,然后计算用于 Yolo 输入的边界框的坐标作为圆外接的正方形的坐标。

数据是从专门从事二级诊断的乳腺门诊收集的。因此,获得的病例系列严重偏向于更严重的乳腺癌病变,包括扭曲和不对称。检测和诊断扭曲可能特别具有挑战性,因为它们的特征是存在从一个点辐射出的针状体、局部回缩或在实质边缘拉直。因此,扭曲是最容易被忽视的异常之一 [35]。不对称是指不符合肿块标准的纤维腺体组织单侧沉积。它们可以进一步分为不对称、局部不对称、整体不对称或发展中不对称。

大约 20% 的不对称病例与恶性肿瘤有关,这使其成为一个重要的研究领域 [16]。良性病变占数据集的 17.6%(54 个样本),82.4%(253 个样本)为恶性。数据集反映了真实的临床情况;事实上,它由肿块(62%)、不对称(15%)和扭曲(23%)组成。鉴于类别不平衡性较大,专有数据集仅用于检测

3.2 数据的预处理

对于 CBIS-DDSM 和 INbreast 数据集,Yolo 训练所需的 ROIs 边界框的坐标是根据包含分割病变的最小矩形的坐标计算得出的。

相反,专有数据集的 ROI 坐标是根据包含 ROI 的圆的内接正方形区域计算得出的。

CBIS-DDSM 数据集由扫描的乳腺胶片照片组成,比 FFDM 噪声大得多,细节少得多。因此,仅对于 CBIS-DDSM 数据集,才应用对比度受限自适应直方图均衡化 (CLAHE) 进行图像增强 [23],设置如下:对比度限制为 1,网格大小为 2×2,然后是 3×3 高斯滤波器。对于所有数据集,灰度级在 0-255 范围内缩放,并使用 Lanczos 滤波器将图像调整为 640×640 [36, 37]。

CBIS-DDSM 数据集被随机拆分为 70% 的训练集、15% 的验证集和 15% 的测试集。

INbreast 和专有数据集分别被拆分为训练集 (80%) 和测试集 (20%)。 

3.3 数据增强

3.3.1 训练阶段前的类别平衡技术

由于 INbreast 和专有数据集的类别不平衡程度过高,因此对训练集的少数类别图像(良性)进行了增强。尽管这项工作的主要目的是评估专有数据集上的检测性能(无论病变类别如何),但在训练阶段之前,对专有数据集应用了以下数据增强程序。

具体来说,对良性图像应用了 180° 旋转和 180° 旋转 + 上下翻转 (UD)。其他变换是在 Yolo 训练期间应用的。

根据 [5],对剩余的测试数据集进行了增强以获得验证集。事实上,对良性图像应用了翻转 UD、180° 旋转 + 翻转 UD、左右翻转 (LR) 和 180° 旋转,对恶性图像应用了翻转 LR。考虑到类别之间的差异较小,在 INbreast 上,也考虑了恶性肿块的 180°旋转 [9]。

此过程生成了一个平衡的验证集。此外,考虑到训练集和测试集的 5 种不同划分(5 倍交叉验证),重复了针对 INbreast 和专有数据集的讨论过程。

 3.3.2 训练阶段使用的技术

在 Yolo 训练期间执行了上一步中未考虑的转换。具体来说,选择了三种不同的数据增强配置:低、中、高。在所有情况下,都考虑了图像平移、旋转、缩放、剪切、翻转 UD、翻转 LR 以及 HSV 增强。此外,尽管这是乳腺癌的常见情况,但这三个数据集都包含少量多病变图像。

因此,为了提高模型在同一图像中检测多个病变的能力,使用了马赛克技术。马赛克增强方法包括生成一个 2×2 网格图像,其中包含所考虑的图像和数据集的三个随机图像。 马赛克技术改进训练主要有两个原因:(1) 合并 4 张图像会在同一图像中产生多个 ROI,并且模型在同时识别多个 ROI 方面有所改进;(2) 为了实现相同的输入大小,4 张合并的图像及其各自的 ROI 会缩小尺寸,从而提高对较小病变的检测能力。

3.4 Yolo 架构训练

Yolo 由三部分组成:骨干、颈部和头部。骨干部分是一个 CNN,用于提取和聚合图像特征。颈部允许针对小型、中型和大型物体检测进行优化的特征提取。最后,将用于小型、中型和大型物体检测的三个特征图作为头部的输入,从而由卷积层组成以进行最终预测。

Yolo 要求将图像分成一个网格,然后对每个网格单元进行预测。

预测 由 6 元组 y = (pc, bx, by, bh, bw, c) 组成,其中 (bx, by, bh, bw) 标识预测边界框的坐标 (x, y) 和大小 (高度、宽度),pc 表示单元中存在物体的概率,c 表示预测的类别。还使用了锚点机制,允许在同一个网格单元中检测多个物体。因此,预测是针对每个指定锚点讨论的 6 元组。

Yolo 的每个版本都有自己的特点,主要涉及特征提取器的结构,即主干。

3.4.1 Yolo V3 模型

在 YoloV3 中,Darknet53 被用作骨干 [10]。Darknet53 是 Darknet19(用于 YoloV2 [38])和残差网络元素(例如 BottleNeck)[39] 的混合方法,旨在改进 Darknet19 和 ResNet-101/152 的效率。快捷连接允许获取更细粒度的信息,从而提高小物体的性能。

特征金字塔网络 (FPN) [40] 用作颈部,允许学习不同大小的物体:它专门用于检测大物体和小物体。此外,还使用非最大抑制从许多重叠的边界框中选择一个边界框。

3.4.2 YoloV5-Transformer

与卷积网络相比,Transformer 能够对图像中各个小块之间的关系进行建模。Transformer 块假设图像被分割成一系列块,其中每个块被展平为一个矢量。这些展平的图像块用于创建低维线性嵌入并输入到 Transformer 编码器中,该编码器由多头注意力机制组成,用于查找图像中的局部和全局依赖关系。

事实证明,将 Transformer 块引入卷积网络可以提高效率和整体准确性 [43]。在 YoloV5 中,Transformer 块嵌入在主干的倒数第二层,即空间金字塔池化层之前的三个卷积层中。

3.4.3 模型训练

考虑到 INbreast 和专有数据集的规模都很小,训练像 Yolo 这样的深度架构可能会损害训练模型的可靠性。因此,尽管它是由扫描的胶片乳房 X 光片组成的,但 CBIS-DDSM 仍被用作初始训练的源数据集。

允许在 INbreast 和专有目标数据集上使用 TL 技术。考虑到源数据集和目标数据集都已标记,因此执行的 TL 是归纳迁移学习 [44]。由于 Yolo 同时解决了一个回归任务以预测边界框坐标,以及两个分类任务以预测 物体是否存在 和类别分数,因此采用了两种不同的损失函数。对于回归,使用完全交并比 (IoU) 损失;对于分类,在两种情况下都使用了具有 logits 损失函数的二元交叉熵。

Logits:在神经网络中,logits是模型最后一层(通常是全连接层)的原始输出,通常表示未经过激活函数(如sigmoid或softmax)处理的分数或得分。

Binary Cross-Entropy with Logits Loss:这种损失函数结合了logits和二元交叉熵损失。它首先使用sigmoid函数将logits转换为概率分布,然后计算与真实标签之间的二元交叉熵损失。这种损失函数的好处是,它避免了在训练过程中手动应用sigmoid激活函数,从而可以稍微提高计算效率。

3.5 评价指标

平均精度 (AP) 定义为精度-召回率曲线下的面积。IoU 设置为 0.5。对于 CBIS-DDSM 和 INbreast 数据集,分别计算了检测恶性 (M AP) 和良性 (B AP) 病变的 AP,以及两个类别的平均值 (mAP)。

3.5.1 模型说明:Eigen‑CAM

显着性图能够揭示在系统决策过程中发挥重要作用的像素或区域。这有效地向医生突出了所有潜在的ROI。已经提出了几种基于梯度的方法,例如CAM [45],Grad-CAM [46]和GradCAM ++ [47],以实现深度学习模型的可解释性和透明度。它们是类判别可视化方法,需要类概率分数来进行梯度计算。然而,基于梯度的方法存在这个问题:反向传播任何数量都需要额外的计算开销,并假设分类器做出正确的决策,并且每当做出错误的决策时,所有提到的方法都会产生错误或扭曲的可视化[20]。

因此,上述方法的定位精度仍然很弱,尤其是在预测不正确的情况下。此外,虽然传统 CNN 为每个样本提供类别分布,但 Yolo 的输出包括边界框坐标、每个单元中的对象存在概率以及类别分布。这些问题通常使输出不可微分,并且无法实现基于梯度的算法。因此,许多使用 Yolo 的对象检测研究都依赖 Eigen-CAM 进行架构解释 [48–50]。Eigen-CAM 因其无梯度特性和从提取的特征图中使用主成分而受到青睐。需要注意的是,当预测不正确时,依赖于输出和激活图的基于梯度的方法会产生扭曲的可视化效果。为了解决这些问题,本研究提出了用于显着性图计算的 Eigen-CAM,并将其与遮挡灵敏度方法进行了比较。


Eigen-CAM 是一种无梯度方法,可计算并可视化从卷积层学习到的特征/表示的主成分,从而直观且与所有深度学习模型兼容。

在 Eigen-CAM 中,假设在优化过程中将保留在 CNN 模型层次结构中学习到的所有相关空间特征,而不相关的特征将被正则化或平滑。Eigen-CAM 的计算考虑了大小为 i × j 的输入图像 I 投影到最后一个卷积层 L = K 上,并由 O_{L=K}=W^T_{L=K}I 给出。使用奇异值分解对矩阵 O_{L=K}=U\Sigma V^{T} 进行因式分解以获得主成分。

激活图由第一个特征向量 L_{Eigen-CAM}=O_{L=K}V_{1} 上的投影给出,其中 V1 是 V 矩阵中的第一个特征向量。与 Eigen-CAM 类似,遮挡灵敏度可以与图像检测任务相关联,并且它是无梯度的并且与所使用的特定架构无关。它评估由于遮挡图像的不同区域而导致的激活变化[51]。


3.5.2 显著性图

显著性图已被提议作为一种有价值的工具来增强 YoloV5 的预测能力,它可以帮助医生进行诊断,尤其是在模型无法做出准确预测的情况下。YoloV5 仅在预测超过某个置信度阈值时才提供预测。

显著性图的目的是识别所有 ROI 并减轻假阴性问题。因此,与 YoloV5 的预测相比,显著性图提供了所有潜在的 ROI,即使置信度较低。这不可避免地会导致假阳性增加。考虑到这一点,医生会收到两个输出:首先,传统的 YoloV5 输出平衡了精确度和召回率,仅提供超过一定置信度的 ROI。此外,显著性图提供了所有潜在的 ROI,这些 ROI 可能作为早期癌症指征,即使它们是病变的概率(即不超过阈值)很低。因此,一个简单的预测模型就变成了一个决策支持系统,因为医生不仅会得到明确的决定,还会得到系统建议关注的病变的建议。

4. 结果

4.1 CBIS‑DDSM 结果和数据增强改进

CBIS-DDSM 数据集用于评估最佳 YoloV5 架构和超参数优化,考虑了纳米、小型、中型和大型版本。然后,它被用作源数据集来实现归纳 TL 并提高在 INbreast 和专有 FFDM 图像上的泛化能力。

为此,考虑到大量的超参数,使用每个模型的所有建议默认值进行了初步分析。表 2 显示了 YoloV5 每个版本所实现的结果。纳米和大型版本的 mAP 低于小型和中型版本。相反,与中型模型相比,小型模型的精度和召回率对更加平衡,同时它包含约三分之一的参数。因此,所有后续实验都仅考虑小型模型进行。

表 3 表明,数据预处理部分中指定的直方图均衡化提高了模型性能。此外,使用 0.001 作为学习率的 Adam 优化器优于学习率为 0.01 的默认随机梯度下降 (SGD) 优化器。 因此,使用均衡数据集和 Adam 优化器进行了评估数据增强影响的实验。

随着数据增强的增加,结果如何得到改善。所采用的大量数据增强强调了在训练这种深度架构时需要大量数据,从而确认了使用 CBIS-DDSM 数据集对 INbreast 和专有数据集执行 TL 的选择。

4.2 整合结果与迁移学习评估

利用针对 CBIS-DDSM 数据集优化的超参数,YoloV3 和 YoloV5-Transformer 模型也在 CBIS-DDSM 数据集上进行训练,以在 INbreast 目标数据集上实施 TL 技术。

考虑到数据集的大小,在 5 倍交叉验证中计算性能,并报告每个指标的平均值和标准差。所有实验均使用 CBIS-DDSM 的最佳训练协议,即 Adam 优化器、高数据增强和 16 作为批处理。此外,INbreast 也从头开始训练,以显示有无 TL 的准确性差异。

YoloV5s 模型的表现优于其先前版本 YoloV3 以及 YoloV5-Transformer。YoloV3 包含一个特征提取器,其参数比 YoloV5s 和 Transformer 多(约 6100万 对 700 万),因此需要大量的数据进行训练。此外,YoloV5-Transformer 版本的性能较低,但其参数数量与 YoloV5s 相当。比较从头开始训练的 YoloV5s 和 INbreast 上的 TL,计算出 mAP 增加了 0.061,B AP 增加了 0.119。数据集的不平衡清楚地反映了模型的性能:对于每个考虑的模型,良性病变(少数类)的检测率低于恶性病变。

4.3 专有数据集结果和迁移学习评估

YoloV5s 模型对这两个开源数据集的准确率最高,并用于专有数据集上的病变检测。

使用 CBIS-DDSM 作为源数据集、INbreast 作为目标数据集的训练模型 是 开始在专有数据集上进行训练的检查点。

因此,在专有数据集上训练的模型带来了在 CBIS-DDSM 和 INbreast 上学到的知识。具体而言,使用迁移学习计算出的初始 mAP 更高、早期时期的 mAP 增长更快、mAP 渐近线更高 [54]。

4.4 可解释性结果

为了评估使用 XAI 方法的性能,我们对由 50 张图像和 56 个病变组成的专有数据集子集进行了手动分析。在选定的子集中,Yolo 模型正确检测到了 41 个病变,但漏掉了 15 个病变(假阴性),并错误地识别了 19 个不存在的病变(假阳性)。然而,当我们使用 Eigen-CAM 时,我们观察到了更好的结果。在 56 个病变中,52 个被正确检测到,将假阴性减少到只有 4 个。 然而,使用 Eigen-CAM 导致假阳性增加,总数为 34 个。另一方面,遮挡灵敏度方法的表现不如 Eigen-CAM,假阴性增加到 20 个,假阳性增加到 55 个。

5. 讨论

5.1 性能测试和迁移学习的重要性

考虑了三种不同的数据集。CBIS-DDSM 是最大的,因此最适合深度训练。然而,它由扫描的胶片乳房 X 光片组成,导致图像与 FFDM 图像明显不同。 相反,INbreast 和专有的 FFDM 数据集可以被视为在真实临床实践图像上测试 Yolo 的良好基准。

为此,我们使用 CBIS-DDSM 数据集获得了与通用 COCO 数据集(即 Yolo 的基准)相比优化的预训练。实际上,COCO 数据集用于识别现实生活中的图像中的物体、汽车、人物等。在每种情况下,其分布与乳房 X 光检查中的乳腺癌有显著不同。

​​对于所有实验,使用 CBIS-DDSM 作为源数据集,利用迁移学习技术,并比较不同的 Yolo 架构。考虑到 Yolo 架构不断发展以提高准确性和推理速度,因此发现 YoloV5 比 YoloV3 更准确并不明显。 此外,在 YoloV5 的各个版本中,小版本是最准确的,与 YoloV5s-Transformer 相比也是如此。在专有数据集上获得的性能低于 INbreast。但是,我们的数据集包含三倍数量的病变,可以更准确地评估模型。 

尽管两者都是用于乳腺癌分析的数据集,但分布和训练自然会有所不同。事实上,INbreast 是使用像素大小为 70 µm 的 MammoNovation Siemens FFDM 机器获取的,而我们的数据集是使用像素大小为 50 µm 的 Fujifilm FFDM 获取的。空间分辨率也非常不同:INbreast 为 3328×4084 或 2560×3328,而专有数据集为 5928×4728。此外,主要区别在于数据集的异质性。事实上,对于 INbreast,考虑的 107 个异常只是肿块,有 2 个不对称。 相比之下,我们的数据集主要由肿块(62%)组成,但也包括不对称(15%)和扭曲(23%)。这些类型的病变占我们数据集的 38%,对准确检测提出了额外的挑战。 

术语“结构扭曲 (AD)”是指正常结构因不明确的可见肿块而扭曲。AD 并不总是癌症的征兆,可能代表不同的良性过程和高风险病变 [59],它是筛查过程中漏诊乳腺癌的 12% 至 45% 的原因 [60]。

不对称是指仅在一个乳房 X 线投影上可见的纤维腺组织区域,主要是由于正常乳房组织的叠加而引起的。不对称有不同类型:例如,发展中的不对称有 15% 的恶性肿瘤风险 [61],而整体对称则大多是正常变体。因此,所取得的结果令人鼓舞,并表明可以在不将任务简化为斑块分类的情况下解决乳腺癌检测问题。

5.2 对照

在 [62] 中,由大约 5300 张乳房 X 光片组成的 OPTIMAM 数据集 (OMI-H) 被用作源数据集,对 INbreast 数据集执行 TL。使用更快的 R-CNN 架构,他们在良性和恶性病变检测中获得了 0.79 和 0.95 的 AUC-ROC。

YoloV1 在 [4] 中使用,在 DDSM 数据集中对良性和恶性病变的检测结果为 99.5 和 99.9。Yolo9000(例如 YoloV2)在 [63] 中使用:与我们的系统相比,在 INbreast 数据集上分别评估了定位和分类性能。

具体来说,首先对病变进行定位,然后仅对定位的病变进行分类,检测准确率为 97.2,分类准确率为 95.3。

更大的图像尺寸可能会略微改善结果,而模型复杂性的增加和相关的优化可能会大大增加计算成本

5.3 可解释性讨论

Eigen-CAM 被证明是更适合在物体检测任务中生成显著图的方法。 尽管假阳性不可避免地会增加,但假阴性的减少却非常显著。从临床角度来看,这种减少尤其重要。

显著图应该补充而不是取代 Yolo 模型的输出。事实上,Yolo 的预测结果严格,假阳性数量较少,而 Eigen-CAM 的预测更为保守,假阴性数量最少。最重要的是,这些输出应被视为一种定性工具,始终需要进行临床放射学评估。

6. 总结

在这项工作中,提出了一种基于 Yolo 的乳腺癌检测模型。尽管 CBIS-DDSM 数据集由扫描的乳腺胶片组成,但当 Yolo 使用 FFDM 图像(INbreast 和专有数据集)进行微调时,迁移学习技术的使用可以提高模型的泛化能力。利用在 INbreast 数据集上获得的结果在专有数据集上训练 YoloV5。获得的性能非常令人鼓舞,同时考虑到专有数据集的异质性,该数据集由特别难以识别的病变(例如不对称和扭曲)组成。此外,使用显着性图使深度学习模型的内部过程变得透明,并鼓励将我们的模型集成到临床决策支持系统中。

无梯度 Eigen-CAM 方法突出显示了所有可疑的 ROI,即使在错误的预测场景中也是如此。因此,它代表了我们模型的增强输出。所提出的模型代表了一个值得信赖的预测系统,用于支持临床实践中的认知和决策和控制过程。此外,XAI 结果为前瞻性研究铺平了道路,该研究使用外部数据队列,在有和没有 Yolo 和 Eigen-CAM 输出支持的情况下评估医生的诊断能力。这代表着向将数据驱动系统融入实际临床实践迈出了一步。

;