神经放射学诊断中的MRI数据分析

文档使用说明：

蓝色色字：小编注解

红色字：小编重点强调的知识点

紫色注解：原文旁注解

核磁共振成像(MRI)是神经放射学诊断的一种非侵入性成像工具。最近提出的自动MRI分析的概念结合机器学习的使用，可以用来辅助诊断和预后。虽然这些学术创新已被证明在控制环境变量时大体上有效，但它们在临床实践中的应用仍面临着许多未满足的条件，例如：跨不同人群（编者注：即人群异质性，也即机器学习中用到的不同的数据集）可靠执行的能力，在存在共病（编者注：即同时罹患两种及以上疾病）的情况下稳健工作的能力，以及不受扫描仪硬件和图像质量影响的能力。缺乏实际的置信边界及无法处理丢失的数据也减少了这些方法中的大多数在学术研究之外的应用。掌握诊断过程中的复杂挑战可能有助于研究人员在多模态数据中发现新的生物结构，并改善临床试验的分层（stratification），为精准医学铺路。本文介绍了用于脑MRI诊断分析的计算机方法的最新进展。并对目前这些方法的临床有效性进行了严格评估，并强调了该领域的挑战和未来前景。

[注 *机器学习：计算机在没有特定指令的情况下执行任务的方法和应用；比如，在监督学习中，计算机通过最小化训练数据上的目标函数来学习执行任务。]

1.引言

核磁共振成像（MRI）是一种多用途的成像技术，在临床神经放射科中常规使用（1，2）。脑MRI是诊断多发性硬化症（3）、脑肿瘤（4）和痴呆症（5）的主要工具。其他侧重于监测个体的用例包括对脑卒中、动脉瘤、脑积水、感染和头部损伤的评估。使用医学影像的一个主要动力是对个性化治疗的需求和（数据）可获得性的增加(6，7)。目前，临床常规收集的数据集数量以每年超过6%的速度增长（8）。这一增长速度超过了培训合格人员的速度；因此，要充分利用所有数据，需要对现有的流程进行改进，以提高数据吞吐量。将计算机辅助图像分析以非破坏性的方式整合到以人为中心的诊断流程中，可以实现这样的转变。尽管是基于研究数据集中特定人群的分类任务，计算机在基于MRI区分健康对照组和病理证实的阿尔茨海默症患者方面的性能已经达到了人类水平（9），而且在精神疾病的二元分类任务中，计算机的表现出众（10）。在神经肿瘤学研究中，MRI在描述脑肿瘤的异质性、发现放射学和组织病理学变量之间的关系以及预测临床结果方面显示出了巨大潜力（11，12）。

高级MRI对比度（例如，时间序列和扩散数据）包含丰富的信息，临床医生无法直接解读，或者需要花费大量精力去获取或解读，如手动病变检测和分割。在这些情况下，计算机化的方法可以通过提供多模态成像的补充可解释性数据，并通过辅助读取标准结构性放射学图像来增加数据吞吐量，从而改善诊断过程。补充信息也可能来自于使用合适统计框架从大数据集中获得的人群异质性的更佳解读。来自神经科学研究和数据挖掘的机械模型知识可以作为先验知识来简化大脑中生物物理过程的特定模型。然而，对特定模型的采用取决于适当的统计模型和数据的可用性，以做出准确的推断。对大脑的生物物理过程进行真实的建模比较困难，模型参数的估计需要大量的数据。相比之下，基于替代生物标志物的模型更容易估计。在可估计性和复杂性方面，贝叶斯模型介于基于生物标志物的模型和物理模型之间（13）。更复杂的模型估计需要更多的数据或先验领域知识纳入，从而有效地降低了模型的复杂性。

许多基于模型的生物标志物的单体预测研究已经证明了多变量神经影像学数据与临床上使用的诊断标签高度相关（10，14）。然而，这些在学术环境中建立的方法学创新，尚未转化为临床实践（15）。一个在干净的研究样本中表现良好的方法，在临床环境中由于人群和技术的差异，在可用数据不那么清洁的情况下可能会失败（16）。在人群中，生物标志物和认知特征之间的相关性中的大量差异仍然不能用线性和非线性相关分析来解释，在临床样本中，尤其是在早期和前驱阶段，单样本预测的准确率仍然较低。为了提高预测模型的准确率，可以将可分配方差归因于亚组。人群中的异质性可以通过潜在结构来建模（17-19），并且可能只能通过大的横断面和纵向数据集来显示。这可能有助于识别亚群和大量尚未解释的差异(variance)。在技术层面上，自动化方法的普适性要求提取的（潜在）特征独立于扫描仪硬件。在多中心环境下，提高鲁棒性的一种常见方法是在图像采集层面上进行协调(20)，对数据进行池化（编者注：即数据采集的降采样）(21)。替代方法使用一种补偿采集后特定点的偏差的方法（22-24）。然而，在采集水平上的跨中心统一需要在质量上作出妥协，因为必须找到最低公分母。同样，只有在有参考样本的情况下，才有可能有以参考样本为基础的协调统一，即使有这样的参考样本，数据中仍会有区域偏差（geographic biases）。另一个阻碍多变量分类方法在临床上使用的问题是，研究样本通常是在互斥条件下对属于不同组的同质样本进行评估，而混合性病变是常见的，特别是在老年人群中。对于临床实践，不仅要考虑预测的准确性，还要考虑预测的置信度（25）。因此，为了产生生态学上有效的临床终点，预测方法必须提供实际的置信度和足够的平均准确度。2012年，Klöppel等人（26）假设，要推进基于MRI的机器学习在临床实践中的应用，必须要有三个主要的方法学改进：(a)多中心环境下的鲁棒性，(b)预测同时发生的条件的能力，以及(c)实际不确定性的输出。

尽管MRI分析在图像采集、图像分析、统计建模和端到端学习等方面都取得了进展，如图1所示，但我们认为上述三个方面的改进仍然是学术研究推广到临床实践所需要的基本研究领域。

图1 神经放射学诊断的MRI和数据分析概况。

两种典型的方法是基于手工设计特征的统计学习和端到端学习。本综述的结构如图所示，首先介绍了在临床神经放射学中使用MRI和数据分析的动机（第1节）。图像采集（第2.1节）涉及到获取不同对比度的三维图像和时间序列的基础知识。在图像分析中（2.2节），对图像进行预处理，提取各种典型的图像属性和复杂的放射学特征。嵌入和统计建模（2.3节）涉及到将图像特征合并到统计框架中。第2.4节讨论了如何在没有中间手工设计的特征的情况下训练一个复杂的诊断模型。第3节展示了预后和诊断在神经放射学中的各种应用。在第4节中，我们就如何克服当前的挑战，以推动该领域向临床有效性和应用方向发展，发表了自己的看法。缩写：ROI，感兴趣的区域；T1-Gd，T1加权后对比度；T2-FLAIR，T2加权液体衰减反转恢复。

2. 核磁共振成像采集和分析的要素

2.1 图像采集

核磁共振成像具有多功能性，不仅能对软组织进行标准结构对比，还能反映其他组织属性及动态特征，如血液动力学和水分子扩散等。现代核磁成像可以追溯到Felix Bloch（27）的公式，该公式通过描述磁化矢量的宏观进动，简化了由垂直于静态磁场的旋转电磁场激发的静态磁场中的电磁信号的形成。由进动矢量发射的电磁场，根据其相对于静止磁场的大小和角度，在接收线圈中感应电流。Perman等（28）求解了四种脉冲序列类型的Bloch方程，提出了以下信号强度模型：

其中，信号s与质子密度ρ成正比，并进一步取决于脉冲序列参数TR、TI和TE，即重复时间、反转时间和回波时间。在公式1中，我们可以理解序列参数组合的效果。当TR长，TE短时，信号大致与ρ成正比，如果TR和TE都短时，则信号以ρ[1-exp(-TR/T1)]为主，即为T1加权。当TR和TE均为长时，则该项由ρexp(-TE/T2)主导，即为T2加权。其中“长”和“短”是相对于典型的T1和T2常数而言的。T1加权和T2加权的图像不是T1和T2松弛时间的参数图，而是由各组织特定驰豫时间的差异主导的对比度。因此，组织对比度是在大的静态磁场和射频激励下的不同物理组织特性的表现。时间常数是组织特异性的，但也可以通过注射造影剂如钆（Gd）等在外部进行操作，改变T1驰豫时间，从而在存在造影剂的地方产生强信号。

（注 *TR、TI和TE：分别为重复、反转和回波时间；三个基本脉冲序列参数，用于控制组织之间的对比度。

*T1和T2：描述激励后发射信号的指数衰减的理想化组织特性时间常数。）

大多数机构可获得具有先进对比度的MRI，与标准结构成像不同，这种对比度不能被直接解释，但反过来又能为生理过程和标志物提供替代标志物。例如，扩散加权成像对特定方向的扩散很敏感。MRI中脑血流的对比度是通过造影剂（29-31）或动脉自旋标记（32）来实现的。在功能MRI中，对比度是由于血容量、血氧量、血氧量和相对血氧水平（含氧血红蛋白和脱氧血红蛋白之间的比例）的差异产生的。所测得的信号和噪声特性通常取决于扫描仪的硬件和序列参数。现代MRI扫描仪的磁场强度在临床上可达3T，在研究中可达7T。更高的磁场强度可以实现更高的信噪比，但对梯度场中的不均匀性和探头本身造成的失真更敏感。然而，更高的磁场强度的净增益是巨大的，特别是在结构成像（33）。虽然不同的成像对比度单独提供了有用的信息，它们的多变量组合有互补价值，尽管这更难被解释。图像分析有助于生成可解释的成像数据，特别是涉及到多模态和高级成像时。

[注 *组织对比度：表示不同组织类型的外观（即哪些组织看起来亮或者暗），图像是由重建后的空间强度变化所形成的。]

2.2. 图像分析

MRI的分析涉及到从单个图像或图像集合中提取可解释或可挖掘的数据。这个过程涉及到计算机提取数据（特征），这些数据（特征）是由临床医生整合和解释的。在传统的环境中，这些特征是根据输入数据和手头任务的先验知识来设计的。这些特征随后被用于数据分析步骤中，用于分组比较，并使用统计模式识别方法对单个受试者进行推断，如2.3节所述。

多模态图像是在不同的空间分辨率下获取的，并且可能有不同的来源。为了分析这样的横断面数据或同一模态的纵向采集，必须对齐所有的图像，使采集的区域的解剖学结构相匹配。对于受试者内部配准（intra-subject registration），刚体配准通常就足够了，只有在采集导致失真（distortion）的情况下才需要非线性配准。对于对象间配准或基本解剖结构改变（例如，切除）之后的配准，非线性配准是必要的。这些情境的挑战在于找到灵活性（模型复杂性）和准确性（数据拟合）之间的最佳权衡。这样的配准可以通过在本地图像空间中分割划定一个解剖结构来回避。分割是划定感兴趣区域的过程，它可以是一个解剖区域、病变或肿瘤。该过程可以是手动（34），半自动（35），或全自动（36）。

多模态成像是结构成像、功能成像、灌注成像和弥散成像等多种对比的组合（图2）。弥散MRI可以绘制脑内水分子的扩散图。分子在组织中的扩散不是自由的，而是反映出与许多障碍物的相互作用，如大分子、纤维和膜等。因此，水分子扩散模式能够揭示组织结构的微观细节，无论是正常状态还是病变状态(37)。扩散MRI中可以提取一些描述指标，如分数各向异性、径向扩散系数、轴向扩散系数和表观扩散系数。分数各向异性描述了扩散过程的各向异性程度；径向和轴向扩散系数是局部微结构的指示性指标，如纤维束；中断指示损伤，如多发性硬化症；表观扩散系数提供了组织完整性的信息。纤维束的完整性反映在体内纤维追踪显示的结构连通性中（38），由此得到的结构连接图代表了结构性脑网络。在功能领域的结构性脑网络的对应物是从功能MRI获得的。功能MRI的时间序列反映了局部血流动力学（39）。同样，灌注MRI反映了脑内灌注的各个方面（生理活动的代表），提供了局部微血管、灌注血流动力学和血管通透性的定量测量（31）。从灌注MRI中可以提取几个描述性指标，如相对脑血容量、峰值高度和信号恢复率等。

图2 从不同的MRI对比度中提取的多样化特征。

扩散MRI（左上图）用于提取分数各向异性及轴向、径向和平均扩散系数测量。功能MRI（左下）用于建立功能连接和有效的连接特征。在结构性MRI（右下）中，提取形态、纹理、解剖位置和信号强度等特征。灌注MRI（右上）提取峰值高度、信号恢复、相对脑血容量/OW、相对脑血量/流量以及其他与瞬时灌注动力学相关的特征。

从结构图像中分割获得的解剖掩模被用于从高级MRI对比中提取区域特征。功能MRI的时间序列反映局部血流动力学，通常作为区域活动的度量或脑网络的特征（39）。在任务态的功能MRI中，“活动”是指由实验诱发的局部特定任务的生理变化。在任务功能磁共振成像中的假设是，在每个体素中测量到的时间信号是任务特异性的典型信号加噪声的缩放版本。从数据估计的比例参数（可能是除以噪声）是每个体素中特定任务的生理活动的平均估计。这种将预期信号设置为数据的过程可以看作是对信号的时序压缩（40，41）。在动态因果关系建模中，基于任务的功能MRI和对区域和任务影响的先验假设，通过微分方程[动态因果关系建模（42）]，对脑区域间的因果关系进行建模。在静息态的功能MRI中，没有对大脑施加特定的激活刺激，信号被计算成区域间的同步活动[功能连接性(40)]。

2.3 嵌入与统计建模

为了在统计框架中进行分析，显式的工程特征被嵌入到向量空间中 [注 *向量空间：其中元素可以相加和相乘(缩放)的数据的数学表示] 。这样做时，数据的结构，例如图像内的相对位置或相关矩阵中的位置可能会丢失。然而，数据的维度可能会以一种有益的方式降低。直接向量空间嵌入是通过简单地将图像中的N个特征解释为N维向量空间来实现的。在到达临床终点之前，收集的特征与机器学习或统计建模相结合。即使当维数超过训练样本的数目时，高维数据也可以直接用作线性分类器的多维输入，例如支持向量机或线性判别分析。例如在临床实践中，在多模态MRI中组合多个对比度的图像以确定临床终点一样，类似的组合在本质上增加了输入数据的维度，也被用于基于计算机的评估(43、44)。但在某些情况下，通过特征选择和维度降低方法降低维度是有利的（45）。无论维度如何，所采用的最有效的统计模型和分类算法都相对简单，因为大部分信息都是在前面的步骤中提取的。如果有足够的信息量以及可靠的、一致的特征，完全监督的方法可能会非常准确。然而，关于整个人群疾病模式一致的假设正在受到挑战(46, 47)。最近的一个重要趋势是对疾病的异质性和多种疾病的相互作用以及多种模式的整合进行建模。这类方法包括标准聚类（k-means）、专家/最大边际混合（48）、点云配准（49）、凸多面体分类（19）和阶段推理（50）（这些概念的说明见图3）。这些方法结合纵向轨迹的建模（17，51），有望为临床试验招募到具有共同轨迹的同质人群，并为患者和护理人员提供更准确的预测。

图3 异质性分析需要能够发现子群中的潜在类的方法。

在这里，假设模型由健康个体的同质亚群HC和未知亚型患者的异质亚群C1、C2和C3组成。每个个体由生物标志物X1和X2来描述。所描述的模型产生了不同的解决方案。

(a)具有监督学习的二元分类已被广泛应用于该领域(10)。该方法学习单一的判别函数，从而忽略了可能存在的子类型。

(b)点云配准算法(the coherent point drift algorithm)假设子群可以通过点云变换从健康对照组中出现(52)。(c) 将多个二元分类器和聚类结合起来，产生一个将对照组从多个潜伏亚型中分离出来的多聚类(19)。

(d) 数据驱动的聚类(如k-means及其变异)使类内方差最小化，类间方差最大化。

(e) 混合专家模型给每个主体分配一个潜在类别标签，并结合多个二元分类器的输出(18，48)。

( f ) 非负矩阵因式分解同时聚类特征和个体(54)。

(g)分层聚类法(hierarchical clustering)将聚类内相似但组间不同的相似生物标志物特征进行分组。从分配给一个聚类的整个数据集开始，将观测结果递归地分割成更小的聚类，形成聚类层次结构。

(h)凝聚聚类是基于观测点之间的相似性，算法最初为每个观测点分配一个聚类，并在连续迭代中将聚类融合在一起(53)。

(i) 基于正(+)或负(-)的生物标志物状态x1、x2和x3的先验阈值的生物标志物状态的无偏分类(46)。与其他方法不同的是，这种方法不是数据驱动的，而是基于先验设定的个体分类规则。

2.4 端到端的学习

从形式上看，对成像数据的整合和推理不需要对具象特征进行预计算，而是可以基于原始输入进行推断。端到端的学习技术旨在跳过特征工程（2.2节），基于原始输入进行推断。尽管如此，经验证据表明，从高维图像空间映射到低维任务，在具有多级或多层的分级数据分析路径下效果最好，比如在深度神经网络中。一般情况下，中间数据驱动的特征并不对应于一个直观的可解释的观察结果，而是来自于分层的、高度非线性的操作。在端到端学习的情况下，工程涉及到设计合适的深度神经网络的架构，并采用适当的训练，这最终取决于应用。这些人工神经网络是高度非线性的，可以有几百万个参数分布在数百个层（55）。通过最小化适当的损失函数来训练网络，这需要足够的训练数据。为了防止网络过拟合，可以采用强度和形状的保类随机变换（Class-preserving stochastic transformations）。网络的层级表现为越来越抽象的特征表示，范围从对方向性边缘敏感的滤波器到复杂的类似对象的滤波器响应（56）。在许多医学影像基准（benchmarks）中，深度学习方法优于传统的机器学习方法（57-59）。虽然深度神经网络在许多情况下都是准确的，但由于其容易受到对抗实例的影响而被批评为过于自信和不稳定，这些对抗实例要么是人眼看来无法区分的输入数据对，但被网络分类的结果却大相径庭；要么是根本不像任何类的图像，但被网络以高确定性分类（60）。用保类增广（class-preserving augmentation）、生成对抗神经网络(61)、伯努利丢弃（Bernoulli dropout）(62)和高斯下降连接(63)训练深度神经网络，目的是通过在数据集中引入人工变异，使深度学习网络更具鲁棒性和泛化性。。

[注 *深度学习：一种由多层人工神经元组成的人工神经网络的体系结构；经过训练后，这样的网络可以作为分层特征提取器，不需要对信息性特征进行工程设计。]

3. 开拓性研究应用

3.1 基于神经影像学生物标志物的老年痴呆症综合征的预测

基于各种特征的判别性机器学习方法被用于以完全自动化的方式对单体分类进行基准化。其目标是利用监督的机器学习方法预测一个主要基于综合征的诊断类别。Arbabshirani等(10)收集了200多项研究的结果，这些研究将这一原理应用于脑部疾病和不同的成像模式。监督的机器学习方法包括支持向量机、线性判别分析和随机森林分类。被调查的研究分析不同的队列，使用不同的统计机器学习方法和不同的模式。因此，研究结果并不完全具有可比性。尽管如此，这样的结果表明数据中存在着大量的信号。在老年痴呆症方面，甚至可以在有监督学习的框架下进行临床前诊断，预测轻度认知障碍的受试者将转变为因阿尔茨海默氏症引起的痴呆症状状态(64)。这些研究的限制因素是其应用范围有限，缺乏生态学有效性。首先，大多数研究解决了二元分类问题，但忽略了临床相关的判别诊断。其次，这些研究都是以（特定的）研究人群（research populations ）和干净的数据集为研究对象，使得研究结果不适用于图像质量控制和人群同质性等条件有本质区别的临床环境。Stephan等(15)认为，仅仅通过自动化手段模仿目前的临床决策过程并不是一种具有长期临床实用性的策略，因为分类不能提供临床轨迹或治疗反应的信息。判别诊断和混合性病变的诊断实质上更具挑战性，特别是在早期阶段，各组间的差异很小（65，66）。单一生物标志物或单一模态都不足以完成任务（47）。Harper等(47)建议先获取预测值较大的模态，必要时再获取额外序列，以提高判别诊断的效率。部分由于在这种情况下缺乏一个有用的金标准，提出和对比疾病分类的自动图像处理和分析的学术研究，将分析限制在具有分离类别的临床同质数据集（10，67）。然而，在临床实践中，尤其是在老年人群中，一个患者可能有多种病变，当多种病变并存时，相关的临床终点是判别诊断和预后。

[注 *判别诊断：在症状重叠的情况下，从备选方案中识别特定的病理；例如，临床痴呆的症状可能是由于晚期抑郁，也可能是阿尔茨海默氏痴呆的症状或潜伏期。

*群体异质性：在具有特定标签的组内或在诊断类别（如阿尔茨海默氏症）内观察到的受试者之间的差异，表现为不同受试者之间的显著差异。

*预后：通过临床症状和可能的生存情况来预测疾病的病程。]

3.2 衰老和痴呆症的异质性建模

个体的精神和生理状况的状态和进展是多变的。基于临床症状明确分类的统计模型只能解释数据中的部分变异性以及生物标志物与临床表现之间的相关性。为了探索异质性，算法不能仅仅依靠分类标签，而必须将生物标志物的异质性编码到潜在结构中。其中一些方法如图3所示。例如，Dong等人（49）将半监督机器学习方法应用到阿尔茨海默病神经影像学（ADNI）队列中，以解释轻度认知障碍、阿尔茨海默病和健康对照组受试者之间的神经解剖异质性。他们确定了四种不同的萎缩模式，在认知特征（cognitive profiles）和淀粉样蛋白-β1-42值的数据中也显示出显著的差异。后来，Eavani等(48)将一个由分段线性边界组成的非线性分类器应用到巴尔的摩老龄化纵向研究中50～96岁的参与者的MRI数据中，构建了结构和功能变化的标准化横断面大脑衰老轨迹，并确定了五种不同的高级大脑衰老表型。在阿尔茨海默病痴呆症的三个潜在萎缩因素，即颞部、皮质下和皮质因素，通过贝叶斯潜在Dirichlet分配（68）被识别，用基于随机森林分类的距离度量法（69）的凝聚层次聚类确定了五种亚型。这些研究虽然没有直接的可比性，并且在一定程度上受建模的影响有所偏差，但这些研究表明病理过程的异质效应的存在。

3.3 精神疾病

从方法论的角度来看，神经精神疾病的生物标志物的探寻以及相关的影像学和分析中所使用的基本方法与退行性神经精神疾病的诊断和预后非常相似。然而，神经功能障碍源于神经递质释放或受体功能的改变，而不是神经元的丧失。因此，精神障碍引起的解剖学变异性相对较小。然而，在临床症状的表现形式上，个体间差异是巨大的。由于微小的（如果有的话）结构变化，我们采用了功能性血氧水平依赖性的MRI或动脉自旋标记的MRI。在这些采集中，静息状态下的功能型MRI是最实用的，因为它不需要实验性的设置，并且在多中心的研究中也被证明可以起作用（70，71）。从临床上看，在精神分裂症等精神疾病中，治疗包括药物治疗和社会心理治疗，其主要目的是直接改善整体生活质量，而不是阻止神经变性或补偿神经元丢失。要准确地表征整个谱系，需要合适的信号、知识和生物物理机制的建模（13）。对药物治疗的药理反应分析可用于诊断病理亚型，并根据对某些治疗的反应进行分组。

3.4 与健康老化的差异是病理的一般标志物

衰老是一个有预期的过程，大脑的结构和功能会发生变化。因此，偏离预期的轨迹可能是由病理过程造成的。例如，如果患者的生理年龄的估计年龄大大高于其实际年龄，那么这可能是神经退行性过程的预示。预测年龄与实际年龄之间的年龄差距（图4右下角）与显性痴呆（72-75岁）及偶发性痴呆（校正相关协变量后）有关。这种方法的优点是，模式不是特定于一种疾病的。同时，机器学习大脑老化的模式，从而忽略了与健康老化无关的区域性变化，它对类似老化的结构性变化（如加速神经变性）最为敏感。个体化的脑衰老指数的发展增强了我们对脑衰老加速和痴呆之间复杂关系的理解。值得注意的是，这些指数帮助我们获得了个体的整体脑健康的成像特征，而不是得出群体统计数据。在这样一种方法中，Habes等人(74)对2705名患者的MRI进行了回归分析，得出了脑衰老的影像学特征[SPARE-BA(用于识别脑衰老的空间萎缩模式)]。作者还在ADNI队列上应用了类似的方法来推导出与阿尔茨海默病相关的成像特征（SPARE-AD）（76）。分析结果显示，这两种影像学特征都与不同的因素有关。此外，脑老化加速的患者显示出的萎缩模式，与阿尔茨海默患者部分重叠，但有明显的不同。最后，阿尔茨海默病模式和遗传因素之间的关联支持了这样的假设，即不同的机制可能导致终生脑衰老，并最终导致晚年神经退化。未来，这些基于结构或功能标记物的脑年龄预测方法可能会改善神经系统、神经精神和神经退行性疾病的个体风险评估，并有助于开发个性化的神经保护性治疗和干预措施。Peter等人(77)实施的一个类似的想法，利用与阿尔茨海默病相关的特征，将有主观记忆障碍的受试者与健康对照组进行对比。这些受试者没有显示出阿尔茨海默病导致的痴呆证据，但抱怨最近记忆困难。有主观记忆抱怨的组有更多的阿尔茨海默病样萎缩，比没有记忆抱怨的匹配对照组更像阿尔茨海默病。因此，加速老化和阿尔茨海默病样萎缩这两个指标都具有临床前诊断的潜力。

图4. 单个生物标志物的纵向预测，重点是变化率和脑隙估计。(上图)生物标志物用于估计受试者i的潜在进展评分si，然后基于多个过去时间t =-1和t = 0等的观察，来预测一个特定的生物标志物的前瞻性纵向趋势（浅蓝线）。 (下图)根据受试者i的生物标记物轮廓估计脑年龄âi和脑间隙ai，作为神经退行性病变的非特异性标记物。

3.5. 病变检测和量化

白质和皮质中的病变检测和量化是多发性硬化症诊断工作的一部分（3）。大脑微出血和深部灰质中的铁沉积是认知障碍的重要原因，并与特定的血管病变有关（78）。先进的结构成像技术，如磁化率加权成像、双重反转恢复对比和定量磁化率成像等，提高了对特定类型结构异常的敏感性，使研究人员能够检测到相对少量的异常组织。由于没有正确标注（ground truth），准确识别病变结构是非常有挑战性的，因此，基于多模态成像来进行病变检测的金标准依赖于专家知识。随着先进的成像技术、新颖的统计机器学习方法和端到端学习，检测准确率已经得到稳步提升，特别是在疾病的早期阶段，并正在接近人类水平(79，80)。

3.6 神经肿瘤学的预后

[注 *神经肿瘤学：诊断、治疗和监测中枢神经系统肿瘤的医学领域。]

手术切除胶质瘤通常是神经肿瘤学中预防胶质母细胞瘤肿块引起的症状的唯一选择。研究的重点是比较常见的神经胶质瘤，如世界卫生组织（WHO）II-IV级胶质瘤（81）。IV级胶质母细胞瘤肿瘤占恶性原发性脑肿瘤的54%（82）。其他几种发生率较低、异质性较强、发病率较低的脑肿瘤类型，如WHO I级肿瘤、儿童中枢神经系统肿瘤和脑转移瘤等，在研究中较少受到关注。

脑肿瘤的生存几率有很大的差异，从几个月到5年以上不等，治疗的风险也取决于肿瘤的区域和类型。因此，准确的预后对于治疗风险的判断和指导治疗计划的制定具有重要意义。预后主要基于组织学肿瘤分级和患者的年龄、性别、功能状态等临床信息进行判断（83）。此外，肿瘤的分子特征是目前诊断和预后的核心。然而，尽管从多模态MRI数据中提取的各种影像学特征对预后进行了各种尝试，但在任何临床上采用的预后模型中都没有使用影像学特征。

在研究中，包括最大维度和体积(84-86)、图像强度(87)和形状特征(88，89)等基本影像学特征可以预测临床结果。先进的成像对比度，如扩散、灌注和MR波谱等也有预测价值(90，91)，结合影像学、临床和遗传变量的模型比单独使用上述任何一种数据的预测效果更好(92，93)。最近的研究在多模态MRI的基础上使用机器学习来预测患者的生存期（94-96）。Macyszyn等人（96）根据胶质母细胞瘤患者的肿瘤强度、体积和解剖位置，采用支持向量机分类器来预测生存组（低、中、高）。Kickingereder等(94)从T2-FLAIR(液体衰减反转恢复)序列中确定了11个交叉验证的特征，包括形态学和纹理特征，这些特征完全来源于肿瘤的对比度增强的亚区。最近，一项跨机构研究认为，适当的强度归一化方法可以减少系统性的扫描偏差(97)。

纹理特征也被广泛用于胶质母细胞瘤的预后。Yang等(98)评估了从T1-Gd和T2-FLAIR序列中获得的定向梯度、分形特征（fractal features）、游程矩阵特征和局部二元模式的直方图在预测生存率方面的有效性。基于灰度共生矩阵的纹理特征和从不同肿瘤亚区的动态磁化率增强磁共振成像中提取的高斯拉普拉斯滤波器对预后也是有效的(99)。后来，Chaddad等(100)提出了多尺度纹理特征的概念，并使用基于随机森林分类器的多变量分析来预测短存活率和长存活率。

预训练模型(用于特征提取)和传统机器学习(用于分类)的融合，在生存预测方面也得到了一定的关注。Chato等人(101)分别使用了几种深度学习和传统机器学习架构进行特征提取和分类，发现AlexNet(102)和线性判别分析的结合是最好的。同样，Lao等(103)证明，通过迁移学习(一种预训练的卷积神经网络)提取的深度特征可以生成胶质母细胞瘤患者总体生存率的放射组学特征。

3.7. 放射治疗的技术进展

放射治疗与化疗一起，一直是肿瘤科的核心治疗方法。它的价值随着里程碑式的报告而被牢固的确立下来，该报告发现放疗有助于延长生存时间（104）。目前的临床标准包括将均匀的放射线照射到瘤周FLAIR高信号（水肿）区域，而不尝试针对可能浸润较严重的区域。放射组学分析通过区分浸润性肿瘤和血管源性水肿，并在视觉上相似的水肿区域中检测到高度浸润的组织，从而提高了对肿瘤行为的理解和表征水肿区域内的异质性(105)，从而显示出了潜力。

自从无创性评估浸润性肿瘤的方法出现以来，划定肿瘤可见边缘以外的高浸润区域的概率图得到了广泛应用。放射肿瘤学家利用这些图谱，提高浸润区域的剂量，以防止肿瘤早期复发并最终延长生存期（105）。在一个这样的方法中，Akbari等人（106）利用机器学习方法将术前多模态MRI信号结合起来，创建了浸润性水肿区域的预测性空间图，然后将其与手术后随访研究中的复发区域与病理证实的区域进行比较。随后的一项研究将这种表征扩展到包括高级放射组学特征，进一步提高了性能（105）。这些研究强调了基于机器学习的成像特征的作用，以允许在保留周围正常结构和组织的同时，对界定的治疗区域进行高剂量治疗。

3.8 肿瘤治疗反应的预测

脑肿瘤进展情况的判别分析，使用替代措施的假性进展进行了探讨。“假性进展”是指脑瘤患者在化疗结束后的几个月内表现出的信号增强，最初表现为生长，但通常会稳定下来，一段时间后可能会消退。这模仿了肿瘤的进展，但与真正的进展相比，具有不同的特点，是由治疗相关的变化引起的。准确区分假性进展和真性进展是非常重要的，因为治疗策略需要进行相应的调整；例如，对于真性进展可以进行额外的手术切除，假进展就不需要了。最近越来越多的研究集中在这一领域，而这一领域的研究在以前相对来说是未得到重视的。Lee等(107)对化疗结束后两个月内获得的增强区域增加的患者的扩散加权图像的强度测量进行了统计分析。

作者利用22例高等级肿瘤的影像特征，发现表观扩散系数的强度与真性和假性进展之间存在较高的相关性。Wang等(108)回顾性研究了胶质母细胞瘤患者在完成化疗后6个月内表现出增强病变的弥散加权图像和动态磁化率MRI造影剂序列的强度指标。作者利用多变量logistic回归分析，对41例组织学确诊的患者进行了真性进展与混合反应或假性进展的鉴别。Akbari等人(109)在之前的研究基础上，利用65例胶质母细胞瘤患者的多模态MRI序列，包括扩散加权成像、动态磁化率对比MRI和常规成像，并利用广泛的放射学特征集量化了可疑组织(增强型病变)的成像图谱。利用效应大小进行特征选择，采用支持向量机来区分真性进展与混合反应或假性进展。这种真性和假性进展的放射组学特征可能提供了一种有用的、非侵入性的工具，可以帮助临床医生在影像学模糊时做出决策，并使得在假性进展的情况下终止不必要的手术。

3.9 神经肿瘤学中的放射基因组学

胶质瘤的诊断和治疗面临的挑战是由于其突变、分子和微环境的异质性。更好地了解这些细胞通路对于选择靶向治疗方法非常重要（110）。考虑到目前临床实践中不同分子标记物的预后价值，分子标记物正被用作建立综合诊断的关键因素，这在2017年WHO对中枢神经系统肿瘤的最新分类中有所体现（111）。例如，胶质瘤现在根据异柠檬酸脱氢酶（IDH）突变的存在进行分类，IDH突变体具有良好的存活率（81）。然后，根据染色体臂1p/19q的共缺失情况对IDH突变体进行进一步分类，在1p/19q密码子缺失中可以看到良好的存活率。来自癌症基因组图谱(https://cancergenome.nih.gov/)的受试者的基因表达数据的重要工作是确定具有预后影响的基因表达亚组，即原神经亚组、神经亚组、经典型亚组和间充质亚组，它们代表了具有预后和治疗意义的不同细胞通路(112)。

最近，放射基因组学（注放射基因组学：定量成像特征基因表达之间的关联研究）的快速发展进一步推动了我们对神经肿瘤学的理解(113，114)。胶质瘤放射基因组学已经开始研究几个候选分子标记物的放射基因组表型，包括IDH突变（115，116），O6-甲基鸟嘌呤-DNA甲基转移酶（MGMT）甲基化（117-121），表皮生长因子受体（EGFR）剪接变异体（122，123），PTEN和TP53突变（124，125），以及1p/19q编码序列（126，127）。在脑的不同解剖区域发现了具有不同放射基因组标记的肿瘤。例如，PTEN肿瘤往往位于右额叶，EGFR肿瘤往往位于右顶叶(128)。此外，一些放射基因组学标记物与影像学测量有很强的关联性。PTEN肿瘤与较低的相对脑血容量（129）和较高的表观扩散系数（125）相关，MGMT甲基化与结节性和异质性增强（117）相关，IDH突变体与纹理描述符、较低的表观扩散系数和相对脑血容量（130）以及边缘不清和T2-FLAIR不匹配（肿瘤内的区域在T2-加权图像上是高信号，但在T2-FLAIR图像上是低信号）相关。放射基因组学还具有评估肿瘤的空间和时间异质性的能力，这在组织病理学分析上是无法做到的。特别是在这个精准诊断（注精确诊断：一种高度个性化的诊断过程，从影像、分子和遗传数据中提取并组合生物标记物）的时代，分子标记物的成像具有影响治疗决策的能力，这将对患者的护理产生重大影响。

4. 掌握诊断过程的复杂性

4.1 诊断和预后

最终形成治疗决策的诊断和预后过程及其终点，在不同中心和医生之间存在较大的差异性。在许多情况下，并没有一个单一的检测方法可以保证使用单一的最佳治疗方案。相反，诊断可能是不确定的，并且与合并症混淆，治疗选择有限，或者对患者来说有很大的风险。简而言之，作为治疗决策的基础，诊断和预后的过程是非常复杂的，但仍有规律地执行。放射科医生每年在全球范围内解释超过10亿次以上的影像学检查(131)，据报道错误率为3-5%(132)。在神经放射诊断过程中，可分配的可变性来源有：评分者之间的偏差（不同评分者之间的假设冲突）、零星误差和评价者内的方差。

此外，关于诊断和预后的正确标注只能在死后或根本无法获得。例如，在组织类型分割的情况下，由于定义是主观的，因此无法获得每一个体细胞被分配到一个离散类的正确标注。这个问题可以通过多位专家的协商一致来部分缓解。但是，这不应该与正确标注的真值混淆，因为参考检验中仍然存在不确定性或模糊性。缺乏正确标注限制了模仿诊断-标签分类的计算机化方法所能达到的最大预期性能。因此，改善诊断需要克服这些限制的模型。但是，如果没有正确标注，提出的替代假设就会变得不可验证。处理这种情况的可能方法包括显式地学习产生竞争假设的变体的潜在空间(133)和解释训练数据(134)中错误分配诊断标签的模型方法。

尽管计算机辅助诊断过程取得了成功，但由于在如何将输入转化为特定输出方面缺乏透明度而受到批评。可解释性模型的开发将打造一个有效工具，使机器学习模型有能力用可理解的术语解释其行为(135)。可解释性学习可以通过内在可解释性或事后可解释性的方式来实现(136)。“内在可解释性”是指开发的模型直接将可解释性嵌入到模型的结构中，而事后可解释性则是通过开发第二个模型来提供对现有模型的解释，比如具有显著图的端到端学习（56，137）。可解释性和性能目前在这些方法中存在明显的冲突。内在可解释性模型以降低性能为代价提供更好的解释，而事后模型提供了有限的解释，但可能提供了更准确的预测。

4.2 临床前诊断

药物开发和预防护理的一个挑战是缺乏准确的临床前诊断检测，而且疾病发展的时间跨度较长。疾病的病理生理过程早在症状发生前就已活跃起来（138）。现象学的疾病分类，如ICD-10（国际疾病统计分类，第10版），由于没有预设明确的症状，因此对无症状前的分类是不够的。另外，临床状态可以通过一定的生物标志物谱来确定(46)。将横断面和纵向观察联系起来，建立考虑到个体间特征/亚群的疾病进展模型，可能使研究者能够预测未来个体的生物标志物谱。如果足够准确，可以实施具有个性化预期的干预研究。在此背景下，有人试图了解轻度认知障碍的临床前状态（139）。基于这些临床前状态往往表现出MRI所反映的宏观属性的假设，通过机器学习方法开发的临床前状态的成像特征可能不仅能够探索疾病的离散风险或病因学因素，而且还将有助于在疾病的阶段，当这种干预措施可能有效时，用疾病修正治疗和二级预防措施进行干预（140）。

4.3 异质性

越来越明显的是，主要疾病具有异质性(不同的)影响（4，52）。研究需要大的横断面数据集确定亚型并揭示大量尚未解释的变异。大多数预后评估的模型，无论是使用亚型还是建立监督模型，都主要基于横断面数据集。纵向数据集上的一些稀疏工作也被提出，用于肿瘤反应评估的生物标志物的发展（109）和脑发育轨迹的估计（141）。在训练数据中已经确定了多个轨迹的情况下，将纵向数据纳入训练和推理中（图4的右上角），可以帮助我们确定患者在疾病初始呈现时的位置（预后）。此外，在纵向数据获得的一段时间内更新预后，可以帮助我们确定最初预测不确定的患者的发展轨迹/预后。由于相关结果值、功能(时间变化)协变量、非线性和非稳态效应以及稀疏采集(51、142)建模困难，纵向数据的分析可能很复杂。然而，这些问题中的大部分已经利用概率的潜在空间变量（50）和加性高斯过程回归模型（143）来解决了。图5说明了阶段性（潜在预后得分）和低维特征表示的原理。

图5.对疾病异质性概率建模的两种方法。

(a) 基于横断面数据的子分型的分期推断模型(50)。疾病分期将亚群建模为具有不同疾病进展模式的群体，其特征是不可逆的事件序列。在这里，健康模式（HC期）在转入两个不同的亚型S2A → S3A和S2B → S3B之前，变化为S1期。

(b) 潜在变量和潜在类模型捕获了生物标志物的协方差结构，或者，如果相应地建模，则捕获低维空间中的疾病进展评分(17，68，144，145)。

揭示潜在的数据结构需要获得足够大的数据集，以覆盖群体内的变化。多站点数据的整合几乎成为必须要做的事情，特别是对于不经常发生的情况来说。统计机器学习算法的使用要求数据分布相对均匀，偏离可接受的分布会对训练模型的泛化性产生负面影响。使用经过整理和协调的数据需要花费大量的精力来处理回溯获取的数据，并且只适用于非常有限的领域。另外，能够分析不完善和不完整的数据的方法具有更高的长期价值，因为它们可以整合更多的资源，并适用于更广泛的领域。当有足够的训练数据时，算法的零星和非系统性错误可以由端到端学习机自动校正(146)。持续不断地努力已经开发出了经过精心整理的开放存取数据库(57，147-149)。这样的数据集将促进基础研究，并为数据的新型模型提供概念验证。

4.4 预测的置信限

诊断过程终点的复杂性和不确定性体现在以医疗报告的形式记录初级诊断、二级诊断和非结构化信息临床系统（145）。诊断的可信度取决于数据的类型（影像学、问卷调查、血液标志物等）以及随访的次数和间隔时间。例如，轻度认知障碍的正式诊断需要至少连续2次就诊，评估认知障碍(5)，因为单次就诊的评估不够可靠。同样，虽然阿尔茨海默氏痴呆只有在死后才能确诊，但正电子发射断层扫描对tau和淀粉样蛋白病理敏感，再加上神经退行性检测，比单纯的结构性MRI可以更准确地描述个体的病理特征（46，150）。因此，来自多种模态和多种纵向评估的证据可以用来增加诊断的可信度。Lorenzi等（145）提供了一种具有诊断不确定性的疾病进展模型的正式实现。一般来说，从同一初始阶段开始，有可能出现多种疾病进展路径（50）。

5.结论

MRI成像和分析是诊断脑部疾病的方案中有价值的工具。在图像采集、图像分析、统计建模和端到端学习方面的进步将有助于这些协议。当然，MRI使测量结构和功能特征成为可能，这些特征反映了各种脑部疾病的基本生物学过程。然而，临床人群的异质性、疾病的影响以及与临床症状的弱相关性，限制了这些方法在临床环境中的使用。在临床环境中，诊断主要基于专家临床医生整合各种信息源，包括访谈和多模态MRI在内的各种信息源。通过整合稀疏的多中心、多模态数据的生成模型，模型推断可以持续改进。这种新颖的前瞻性模型的临床终点将不仅仅基于综合征的诊断标签的复制，而是随着每次观察动态变化的个体轨迹的预测模型。

要点总结

1.磁共振成像(MRI)使测量结构和功能特征成为可能，这些特征反映了各种神经系统疾病的基本生物学过程的特点。

2.MRI分析的进展和机器学习的使用，为神经放射学的个性化诊断和预后提供了有前景的方法。

3.虽然学术上的创新在数据收集进行控制时已经被证明是有效的，但由于人群的异质、数据中的并发症和扫描仪硬件的可变性等原因，很少有创新成果被推广到临床实践中。

4. 由于评分者间的偏差（不同评分者之间的相互矛盾的假设）、零星误差和评分者内部的变异性，导致临床实践中的诊断过程复杂多变，从而导致了缺乏真实性。

5.通过整合多中心研究中的稀疏的多模态数据的生成模型，可以持续改进模型推理。

6.将纵向数据纳入训练中，不仅可以帮助确定患者在疾病初始呈现时的位置（预后），还可以随着纵向数据的获得而更新患者的预后，并完善不确定的患者轨迹预测。

未来展望

1. 鲁棒性算法的开发、处理并发状况的能力、现实置信区间的边界估计是弥补学术研究与临床实践之间差距所需的关键领域。

2. 临床前诊断将是在干预措施更有可能有效的疾病阶段启用干预措施的关键。

3. 需要开发先进的图像分析方法来剖析不同疾病群体的人群异质性，以大幅提高我们对疾病异质性和潜在亚型特异性生物学机制的理解。

原文：Analysis of MRI Data in Diagnostic Neuroradiology

如需原文及补充材料请加思影科技微信：siyingyxf 或者18983979082（杨晓飞）获取,如对思影课程感兴趣也可加此微信号咨询。觉得有帮助，给个转发，或许身边的朋友正需要。

微信扫码或者长按选择识别关注思影

非常感谢转发支持与推荐

神经放射学诊断中的MRI数据分析

悦读