Bootstrap

在静息态脑功能成像中超越因数据处理与分析所导致的变异

当领域缺乏共识的标准方法和可获取的基准真值时,可重复性可能更多地是一种理想而非现实。功能性神经影像学就是这样一种情况,存在着广泛的工具和处理流程空间。我们对五种独立开发的功能性磁共振成像(fMRI)最小预处理流程之间的差异影响进行了关键评估。结果显示,即使在处理相同数据时,流程间的一致性也仅为中等水平,关键地揭示了一个限制跨研究可重复性的因素。表明,流程间一致性低可能在基础数据可靠性高时未被识别,而随着领域的发展,这种情况日益普遍。关键的是,我们展示了当流程间一致性受到影响时,来自全脑关联研究的见解的一致性也会受到影响。我们强调了比较分析配置的重要性,因为广泛讨论和常被忽视的决策都可能导致显著的变异。本文发表在Nature Human Behaviour杂志。

正文:

     随着神经科学社区加大力度表征大脑和行为中个体差异的神经基础,对测量可靠性的重要性有了越来越多的认识。理论和实证研究强调了可靠性作为有效性的上限,以及作为统计功效和可观察效应量的决定因素。这种对可靠性量化和优化的关注尤其对于使用功能性磁共振成像(fMRI)的研究至关重要,因为可靠性是临床转化的基本前提。具体而言,大量研究指出,通过增加每个个体获得的fMRI数据量(即≥25分钟相较于更传统的5–10分钟)、改进采集方法(例如,多回波fMRI11)或采用稳健的分析策略(例如,bagging,多变量建模),可以显著提高测量可靠性。

     然而,存在多种形式的可靠性。大多数先前的神经影像学研究集中于测试-重测可靠性,这对于任何旨在量化稳定特质中个体差异的实验室测试都是关键前提。另一种重要的可靠性形式是评估者间可靠性(或一致性),这可以指数据采集仪器之间的可靠性(例如,MRI扫描仪)或处理和分析技术之间的可靠性(例如,流程)。尽管评估者间一致性(IPA;即独立处理流程在处理相同数据时生成的派生数据的相似性)较少被评估,但它至关重要,因为它确保了数据在跨研究比较和/或汇总时的适用性。IPA对于fMRI分析尤其重要,因为独立开发的工具执行的是概念上相似但不完全相同的操作。

     假设存在一套共同的最小预处理步骤,可以减少分析变异性并促进可重复性。然而,越来越多的研究表明,这些处理步骤的实现差异或它们的“拼接”方式可能产生显著不同的结果。系统比较特定预处理步骤(如分割、运动校正和配准)的研究报告了在应用于相同数据时,独立开发的软件包生成的输出存在实质性差异。在任务fMRI数据的分析中,使用不同软件包构建的端到端流程被发现会在最终结果上产生显著差异。最近,70个团队独立分析了相同的数据集,使用他们偏好的预处理和统计分析方法,并报告了不一致的假设检验结果。虽然这些发现共同强调了分析变异性对神经影像学研究的科学结论可能产生重大影响,但关于这些差异的来源仍然缺乏明确的说明。

      在这里,我们通过功能连接组学的视角,对fMRI预处理流程间出现的差异进行了系统评估、复制和源定位。首先,我们通过比较五种不同且常用的功能连接分析预处理流程:青少年大脑认知发展fMRI流程(ABCD–BIDS)、连接组计算系统(CCS)、连接组分析配置流程默认流程(C-PAC:Default)、静息态fMRI数据处理助手(DPARSF)和fMRIPrep长期支持版本(fMRIPrep–LTS(基于体积的流程))——扩展了检查fMRI流程实施相关变异性的文献。如表1所示,尽管最小处理流程在基本步骤上通常是一致的,但具体的实现细节显著不同。补充信息第1节提供了流程对之间概念性差异的摘要。其次,我们展示了流程复制作为探索分析变异性和评估发现稳健性的一种手段的潜在作用。为此,我们利用并扩展了C-PAC的灵活性,以在单个平台上复制非MATLAB依赖的最小处理流程(ABCD–BIDS、CCS、fMRIPrep–LTS)。第三,我们将流程相关的变异性置于影像文献中更广泛研究的变异性来源的背景下——即扫描持续时间(每个受试者的数据量)和全局信号回归(GSR)。我们证明,IPA(流程间一致性)是结果总体可推广性的上限,随着领域(1)改进数据采集以优化个体差异测量的测试-重测可靠性,以及(2)在处理技术上取得进展,这一点将变得越来越明显。最后,我们评估了流程间差异的起源,显示出IPA受损的具体原因可能因所检查的流程而异,并对看似无害的决策(例如,蒙特利尔神经学研究所(MNI)大脑模板版本和分辨率)对IPA的潜在影响提出了警示。我们为在领域继续追求可重复性功能神经科学的目标时,提供了改进IPA(流程间一致性)的建议。

表1 五种fMRI预处理流程的关键方法学差异

图片

对于每个被评估的处理流程包,行列出了每个处理阶段所使用的库和工具,蓝色单元格表示它们在处理流程配置中的归属。列间的异质性展示了即使在概念上相似的处理流程之间实现方式的差异。

结果

不同的最小预处理流程显示中等水平的IPA(流程间一致性)

     我们处理了杭州师范大学(HNU)数据集(29名受试者,十个会话;每个会话每个受试者有一段10分钟的单频段静息态fMRI,重复时间2000毫秒;见方法部分),该数据集由可靠性与可重复性联盟提供。我们使用五种不同的流程在广泛使用的fMRI预处理软件包中进行处理(ABCD–BIDS、CCS、C-PAC:Default、DPARSF和fMRIPrep–LTS)。与先前工作一致,我们发现:

     即便是使用来自同一会话的数据,我们发现使用最小处理数据产生的功能连接估计也存在显著差异(Kolmogorov-Smirnov检验,所有配对的P校正值 < 0.001)。这些发现在不同的评估指标(个体水平矩阵Pearson相关、逐边(edge-wise)组内相关系数(ICC)、图像组内相关系数(I2C2)和可区分性)和图谱(Schaefer 200、600和1,000(参考文献34))下都保持稳健。如图1所示,在这些流程中,CCS、C-PAC:Default和fMRIPrep-LTS之间表现出最高程度的IPA(流程间一致性),无论是从单变量还是多变量的角度来看(例如,在Schaefer 200下,矩阵相关为0.811-0.861;ICC为0.742-0.823;I2C2为0.785-0.840;可区分性为1.000)。重要的是,在所有比较中,随着网络维度(由分区单元数量定义)的增加,IPA持续降低(配对t检验,所有成对比较的P校正值 < 0.001)。

     图1中显示的结果可以在大脑表面和连接矩阵中直接查看,详见补充信息第2节,而这些变异对下游图论度量提取或分析应用的影响可以在补充信息第3节中找到。具体而言,我们在补充材料中强调,在处理完全相同的数据时,流程变异导致基于图论度量的个体排序出现显著变异(例如,不同流程对之间的排名差异平均为8.5个位置,最大可达14.5个位置,表明个体连接的相对关系存在实质性变异)。需要注意的是,在所有情况下,这里比较的流程在概念方法或设计上并无差异——即全局信号回归(GSR)和其他去噪状态是一致的——因此,无论是在度量本身还是下游建模工作中的所有变异都反映了非预期的工具包相关变异。

图片

图1: 五种fMRI预处理包的最小预处理流程间一致性

     每一行表示一对流程,其中针对每个受试者使用相同的数据(即同一会话)计算了个体级矩阵皮尔逊相关、逐边(edge-wise)ICC、I2C2和可区分性。行按照Schaefer 200图谱的中位数矩阵皮尔逊相关进行排序。在任何一对流程中,逐边ICC的中位数——这是结果可靠性的常用衡量指标——均不超过0.823。逐边ICC也观察到最低为0.504,而足够相似性的被接受参考值——在本例中为流程间相似性——通常认为ICC > 0.9。每个受试者所有边的完整分布如图所示。

     在具体软件包方面,DPARSF与其他软件包的相似性最低(例如,Schaefer 200,矩阵相关0.639–0.729;ICC,0.504–0.612;I2C2,0.641–0.713;可区分性,0.990–1.000)。这可能是因为DPARSF是唯一基于SPM/MATLAB的工具,且使用了不同的算法、方法和代码库。基于HCP Pipelines的ABCD–BIDS与其他流程表现出适度的流程间一致性(例如,Schaefer 200,矩阵相关0.667–0.757;ICC,0.563–0.651;I2C2,0.642–0.732;可区分性,0.995–1.000)。这可能反映了ABCD–BIDS在概念上也是最为不同的,包括额外的去噪和脑提取对齐步骤。还应注意,除非与畸变校正配对,否则ABCD–BIDS独特地不使用基于边界的配准(BBR),因为先前的研究表明,未经校正的图像使用BBR(基于边界的配准)可能导致配准错误。如后文所述,当我们探讨变异来源时,使用BBR重复ABCD–BIDS处理(补充信息第4节)产生了与其他非MATLAB流程相当的流程间一致性。为了确定数据质量对上述发现的影响,我们使用来自Healthy Brain Network (HBN)的低运动(n = 29)和高运动(n = 29)队列进行了同等规模的重复探索,HBN使用了NIH ABCD研究的最先进多波段(multiband )fMRI序列(每个受试者5分钟静息态fMRI,重复时间800 ms;补充信息第5节)。我们发现,与单波段HNU样本的发现一致,两个HBN队列显示出低水平的流程间一致性(例如,Schaefer 200,平均ICC = 0.832),低运动队列的流程间一致性仅略高。

复制的最小预处理流程实现了高流程间一致性

     我们通过扩展C-PAC——一个用于自动化fMRI数据预处理的开源软件流程——研究了最小预处理流程的差异(表1)。鉴于C-PAC引擎的高度灵活性,我们随后利用其动态生成了与另外三个非MATLAB流程(ABCD–BIDS、CCS和fMRIPrep–LTS)相协调的最小预处理流程(方法)。这一过程的主要目标是将流程间一致性提升至通常接受的标准(即ICC > 0.9)。图2展示了C-PAC中流程复制过程的结果,并表明在使用Schaefer 200分割时,所有三个案例的中位ICC值均超过0.98。使用其他结果指标也获得了同样高的一致性(例如,Schaefer 200,矩阵相关0.990–0.997;I2C2,0.982–0.990;可区分性,1.000)。有关复制后中间衍生物的相似性,请参见补充信息第6节。需要注意的是,由于这些复制未涉及原始流程的修改,复制后高流程间一致性表明C-PAC内的忠实复制。

图片

图2:C-PAC协调流程的最小预处理比较。

     每对行显示(1)C-PAC默认流程与协调目标之间的一致性,以及(2)C-PAC协调流程与协调目标之间的一致性。协调努力被认为是成功的,因为流程间ICC得分超过0.9,实际上,每个协调流程在使用Schaefer 200图谱时的中位ICC得分超过0.98,在较大分割时为0.96。

低流程间一致性影响脑全局关联研究的可重复性

     接下来,我们展示了流程间一致性对脑全局关联研究结果的影响(即生物性别的样本外分类)。我们检查了在四个不同流程(C-PAC:ABCD–BIDS、C-PAC:CCS、C-PAC:Default和C-PAC:fMRIPrep–LTS)中使用相同数据集时,模型性能(F1分数)和特征权重在表型预测任务中的可比性。鉴于流程的高处理需求(例如,C-PAC:CSS和C-PAC:ABCD–BIDS中的FreeSurfer),我们将分析限制在104名参与者的样本中(年龄,6.9–16.9(13.4 ± 2.5)岁;性别,56%女性),这些参与者因头部运动(平均逐帧位移0.2 mm或以下)从随机抽样的300名HBN参与者中通过了质量控制。

     我们使用跨流程共享主成分训练性别预测模型以确保特征可比性,同时对未校正和年龄校正的连接组进行拟合以解决潜在混杂因素(见方法部分)。结果显示,与更经典但可比性较低的独立主成分策略相比性能一致,F1分数平均差异为0.035(C-PAC:ABCD-BIDS为0.66;C-PAC:CCS为0.65;C-PAC:Default为0.72;C-PAC:fMRIPrep-LTS为0.72)。图3a显示了模型特征的相对重要性,在本例中表现为主成分连接组。尽管各流程的性能水平相当(以F1分数衡量;图3b),且与文献39报告的性别预测结果一致,但主成分连接组在流程间仍存在显著差异。具体的主成分连接组及其在各流程中被发现最具预测性的注释可在补充信息第7节中找到。重要的是,IPA(流程间一致性)与特征重要性相似性之间的一致性被发现极强(R²=0.951,P=0.010,Bonferroni校正;图3c,d)。这表明,虽然IPA(流程间一致性)可能不是识别哪些流程可能产生最强关联的指导,但它与跨流程结果的可重复性密切相关。

图片

图3:流程间一致性对结果一致性的影响

      a, b.当使用每个重复处理流程导出的连接矩阵来预测性别时,每种处理策略(b)达到了相似的预测性能。然而,不同流程中导致这些预测的特征重要性(a)存在相当大的差异。实线和虚线代表两种不同的建模方法。

     c, d.IPA与导出特征的相似性之间存在强烈的关系(R² = 0.951,P = 0.01),这表明流程间的变异性可能不会显著影响发现关系的强度,但无论如何会导致对大脑哪些区域(例如)在此类关联中涉及的见解产生差异。

  • c,流程间特征重要性的一致性。

  • d,IPA与特征相似性的一致性。

Lower tri.,下三角;upper tri.,上三角。

会话变异性超过短时间扫描中的处理流程变异性

      将上述处理流程相关变异性的发现置于已知变异性来源的背景下,对于将这些变异性纳入不断发展的实验变异概念模型至关重要。在这方面,扫描持续时间已在文献中成为测试-重测可靠性的关键决定因素之一。在图4a中,我们显示了测试-重测数据在处理流程内部和之间的可靠性显著低于使用相同数据评估时的情况,这在预期之中(Kolmogorov–Smirnov检验,所有成对比较的P校正值 < 0.001)。由于每个受试者使用了更多的数据(即10分钟对50分钟),会话间的测试-重测可靠性在处理流程内部和之间显著提高,内部流程的边缘间ICC中位数从0.227增加到0.611,流程间从0.152增加到0.428(P校正值 < 0.001)。相比之下,当考虑由两个不同处理流程处理的相同数据时,随着扫描持续时间的增加,IPA并未显著变化(P校正值 > 0.100)——这很有道理,因为重复数据的测试-重测可靠性是完美的。综上所述,这些发现突显了一个现实:随着测试-重测可靠性接近实验室测量的最佳水平,处理流程实现的差异将对预处理数据的一致性设定一个固有的上限。这些发现还强调了直到最近几年在该领域中普遍使用的10分钟数据不足以产生足够可靠的结果,以揭示实质性的处理流程相关变异。

图片

图4:扫描持续时间和GSR(全局信号回归)对C-PAC协调处理流程的最小预处理结果的影响

    a,b,使用相同(I–VI)和测试-重测(VII–XII)数据,计算每个受试者在每个处理流程内部(I–III, VII–IX)和之间(IV–VI, X–XII)的ICC。在相同数据的情况下,扫描持续时间(a)和GSR状态(b,第1和第2列)——当匹配时——对内部或流程间的一致性没有影响。然而,当观察测试-重测数据时,扫描持续时间被证明对内部和流程间的一致性都有重要影响(a, VII–XII)。虽然GSR(全局信号回归)状态并未显著影响内部或流程间的一致性,但在这种情况下的GSR不匹配(即只有一个处理流程使用GSR)在使用相同或测试-重测数据时具有高度影响力(b,第3列)。

GSR(全局信号回归)不匹配比最小处理流程差异更重要

     接下来,我们关注一个有时有争议的预处理步骤,即GSR。具体来说,我们检查了不同的GSR设置如何影响内部和流程间的一致性。如图4b所示,当使用相同的10分钟会话数据、最小处理流程和GSR状态(即两者均“开启”或均“关闭”)时,观察到完美的一致性;然而,当跨处理流程比较时,中位ICC从1.0下降到显著低于之前提到的0.9阈值——与我们上述的发现一致。GSR不匹配(即一个流程使用GSR而另一个不使用)具有高度影响力。首先,当数据和流程匹配时,GSR不匹配导致IPA显著降低(图4b(III)),中位ICC下降到0.6以下(P校正值 < 0.001)。相比之下,当使用测试-重测数据时(图4b(IX)),GSR不匹配的影响较为微妙但仍可检测到(P校正值 < 0.001),会话相关的变异性是主导因素。与先前工作的建议相关,当比较两个都使用GSR的流程时,IPA略高于不使用GSR的流程——在六个流程间比较中有三个达到显著性(Mann–Whitney U检验,P未校正值 = 0.025–0.240)。

空间归一化是处理流程变异的最大来源

      在C-PAC框架中对不同处理流程的重复实现使我们有机会检查哪些步骤导致了流程间的最大变异性。对于每个处理流程(C-PAC:Default和C-PAC协调版本的ABCD–BIDS、CCS和fMRIPrep–LTS),我们生成了一组处理流程,每个流程在四个类别中的一个关键处理步骤上系统性地变化:解剖掩模生成、解剖空间归一化、功能掩模生成和功能共配准。由于在变化去噪组件时观察到的影响最小(例如,非局部均值滤波,N4偏场校正),我们将此步骤与掩模生成和配准合并在评估中。每次扰动使处理流程在一个组件上朝向另一个核心流程移动,最终生成48种配置的空间。如图5所示,影响IPA的具体步骤因所检查的流程对的不同以及这些组件的相互作用而异。

图片

图5:协调处理流程间变异来源的成对识别

      相似性显示为原始(协调)和扰动处理流程之间功能连接矩阵的Pearson相关性的差异。每个图显示在“来源”流程中修改单个组件以匹配“目标”流程时,工具间的相似性。对于每对处理流程,零线表示修改前两者之间的基线相关性,虚线表示基线相关性与完美(参考)相关性之间的差异,即Pearson r = 1.0。值得注意的是,没有任何单一步骤能够完全解决流程间的差异,在某些情况下,增加组件间的相似性反而对结果的一致性产生了负面影响。数据以中位数值 ± 四分位数范围表示。

     有趣的是,每个处理步骤在至少一对流程中都导致了显著差异。然而,解剖空间归一化和功能共配准在大多数情况下都是最具影响力的(Kolmogorov–Smirnov检验,空间归一化步骤的P校正值 < 0.001;掩模生成步骤的P校正值 > 0.500)。这一发现与图1所示的结果一致,图中显示在更高分辨率下工具间的变异性更大——即,细粒度的分割更容易受到配准差异的影响。重要的是,没有任何单一步骤能够完全弥合两个流程之间的差距。这可能反映了流程中步骤之间相互作用的复杂性,以及可能存在未在此分析中考察的其他步骤也在驱动发现,例如空间变换应用于功能时间序列的方式(例如,单步与并行)。对于最初最接近的三个流程(CCS、C-PAC:Default和fMRIPrep–LTS),解剖空间归一化工作流是变异的最大决定因素。这一分析的一个微妙但重要的细节是,匹配归一化工作流不仅仅是匹配配准算法,还包括参数,如模板分辨率、模板版本和去噪工作流。此外,将ABCD–BIDS流程中的功能共配准步骤与其他流程匹配显著改善了IPA(流程间一致性)(补充信息第4节)。这表明BBR选项是ABCD–BIDS与其他流程之间变异的最大来源。运动校正影响的评估见补充信息第8节。值得注意的是,在某些情况下,增加组件间的相似性并未改善结果的一致性。例如,将fMRIPrep–LTS中的解剖空间归一化工具从Advanced Normalization Tools(ANTs)更改为CCS中使用的Functional Magnetic Resonance Imaging of the Brain Software Library(FSL)时,相关性降低。这一发现说明了处理流程的复杂性,并展示了它们的相互作用如何影响流程性能。

模板选择和输出分辨率影响结果

     在整个处理流程比较和复制过程中,我们考虑了用户做出的各种参数决策,这些决策在文献中不常讨论或不常从流程的默认行为中更改。特别值得注意的是几乎无处不在的MNI模板的具体版本和四维时间序列的最终输出分辨率,这两者在文献中很少被报道。在这方面,fMRIPrep–LTS最为不同,因为默认行为是使用fMRI时间序列的原生图像分辨率(而不是2或3毫米各向同性)输出,并使用更清晰定义的MNI152NLin2009cAsym46模板(以下简称MNI2009)作为参考(而大多数其他流程使用MNI152NLin2006Asym,即MNI2006)。为了量化这些看似无害的决策的影响,即使在同一处理流程包内,我们在fMRIPrep–LTS中系统地变化它们(在C-PAC:fMRIPrep流程中复制)。如图6所示,虽然MNI152Lin(以下简称MNI2001)和2006版本的MNI模板在匹配输出分辨率时通常会产生一致的结果,但2009模板则显著不同。当比较使用2009模板和原生输出分辨率(fMRIPrep默认配置)与另一模板生成的结果时,最佳情况是在2毫米各向同性输出分辨率下使用2001或2006模板。然而,这些组合在Schaefer 200分割上仅达到0.89的中位ICC,而2001和2006模板之间的最佳比较保持在1.00。从一个角度来看,这些发现并不令人惊讶,因为非线性配准算法的广泛使用增加了对模板的依赖性。尽管如此,这些结果强调了即使是参数选择中的微小差异也会对流程内部的一致性产生重大影响,并且在考虑IPA时预计会产生连锁反应。这一分析的一个可能的限制是最初基于表面的Schaefer分割向2009模板的变换质量;为了解决这一问题,我们评估了每对模板的体素级时间序列的相关性(补充信息第9节)。

图片

图6:MNI152模板版本和输出分辨率对功能连接组的影响

     按中位个体级矩阵Pearson相关性排序,显示了fMRIPrep–LTS在不同MNI152模板版本和输出分辨率变化时的流程内部一致性。当输出分辨率匹配时,2001(MNI152Lin)和2006(MNI152NLin2006Asym)版本的MNI152模板之间的一致性最高,其次是在配置间匹配与不匹配输出分辨率时。所有2001和2006模板及其输出配置下,fMRIPrep–LTS的内部一致性均高于其他组合,其默认配置(使用2009版本MNI152NLin2009cAsym和原生输出分辨率)在Schaefer 200分割上达到0.89的中位ICC。参见补充信息第5节了解体素级时间序列的类似评估。

讨论

      本研究强调了基于广泛使用的fMRI预处理流程输出的功能连接个体级估计存在显著差异。与之前的研究一致,我们比较了五种不同fMRI预处理流程的最小预处理输出,发现即使使用相同的数据,功能连接的个体差异IPA(流程间一致性)也未达到最佳水平。尽管从长远来看令人担忧,我们使用测试-重测数据的分析表明,目前由数据量不足(即扫描持续时间较短)引起的变异性,比流程相关的变异性更具影响力,这在近年来主导了相关文献。同样,本研究指出,不同研究中的去噪策略差异,例如是否包含GSR(全局信号回归),这一曾经备受争议且与上下文相关的步骤,可能会加剧流程相关的变异性;这一发现再次强调在综合关注个体差异的新兴文献时需要谨慎。或许更令人惊讶的是,我们发现即使是最常被低估的决策,包括广泛使用的MNI标准空间版本和输出分辨率,也可能对流程内部一致性和更为明显的IPA设定实际限制。没有任何一个最小预处理组件被发现是所有流程对中变异的主要来源;相反,导致差异的具体步骤取决于正在比较的流程。尽管存在如此广泛的分歧来源,我们证明了通过仔细复制可以克服流程间的变异性。

      本研究中因流程实现差异引起的结果变异代表了一个被低估的界限,限制了不同研究结果的一致性或可靠性。流程实现差异对IPA(流程间一致性)的影响在我们的分析中尤为显著,无论比较的是哪些流程。不出所料,DPARSF由于其实现中使用的算法和代码库(即基于SPM/MATLAB的组件)最为独特,在所有测试的比较中始终具有最低的IPA。重要的是,我们显示由于数据质量问题,大多数研究尚未受到低IPA设定的限制。通过这些实验,我们将变异性归因于工具选择。不可扰动的组件(例如优化引擎)可能在差异中起重要作用,但由于这些组件无法被用户直接更改,因此在本研究中被视为工具本身的内在部分。事实上,测量可靠性的妥协,如传统(短)扫描持续时间相关的欠采样,甚至可能完全掩盖实现差异。我们的结果表明,随着数据收集测量可靠性的优化——无论是通过增加扫描持续时间还是改善数据质量——流程实现差异将成为跨研究可重复生成结果的下一个障碍。

      本研究还提醒我们,即使在同一软件包内,方法学变异也会导致结果差异。具体而言,我们发现是否包含GSR是流程内部变异的一个主要来源。这是一个特别尖锐的例子,因为随着领域在何时方法更有用(例如,纠正头部运动和考虑觉醒变化)或更少有用(例如,在研究觉醒或其他时间动态时)上达成共识,包含此步骤在不同实验室和时间上的差异有所变化。虽然在某些科学背景下,如上述提到的情况,可能会导致关于是否使用GSR的明确决策,但在数据传播的背景下,这些决策则不那么明确。在这些情况下,是否包含GSR可能会根据处理团队的偏好而有所不同,并且仍然是一个有影响力的变异来源。本研究还引起了人们对看似最小决策差异的影响的关注,例如输出分辨率和模板版本,即使在使用相同的数据和其他方面一致的软件包时,也可能在独立分析师之间引入差异。虽然fMRIPrep–LTS软件包的默认配置采用了较新的MNI2009非对称模板,但大多数领域使用的是2006非对称或2001(参考文献48)模板,这些模板彼此更为相似。同样,fMRIPrep–LTS使用原生输出分辨率,而大多数其他工具使用2或3毫米。发现输出分辨率和模板版本相互作用,并在fMRIPrep内部生成的结果之间建立了一致性层级,重要的是,这表明这些因素的影响是不均匀的。例如,仅匹配模板版本或输出分辨率可能不会导致结果的最高相似性。使用高分辨率图谱导致IPA(流程间一致性)较低也表明基于图谱的连接分析的敏感性。提高感兴趣区域内的配准一致性可以是提高可靠性的关键步骤,但当然,这在整体提高配准一致性以进行全脑分析之后。

     需要注意的是,跨流程的一致性更高并不一定意味着结果的有效性或质量更高。例如,DPARSF流程使用SPM的DARTEL配准工具,该工具已知是一个可靠、高质量的空间归一化工具,但其与其他流程的一致性较低。虽然本研究主要关注用于评估的可靠性指标,这是使用工具的一个关键前提,未来的工作将从有效性(例如,预测/解释能力)作为主要目标中受益。这两个构念的逻辑检查顺序是合理的,因为可靠性,无论是跨测量还是方法选择,都为有效性或实用性设定了上限。

      或许本研究最有力的发现是,低IPA也会损害在下游分析中使用数据所获得的见解。我们的全脑关联研究(BWAS)实验显示,在构建关联/预测任务模型时,IPA与特征重要性之间存在强烈关系,这提供了一个实证性的提醒,即可靠性限制了有效性。这种情况即使在使用池化主成分分析(PCA)特征构建实验时也存在,PCA提高了我们发现的可解释性,但也人为地增加了学习到的主连接组的相似性。这意味着任何应用于哪些特征(即功能连接)导致模型性能的解释,当IPA较低时,不太可能在不同流程间复制。在模型特征重要性可能不是神经科学见解的有用代理的情况下,我们认为变异性仍然是一个重要的发现。特别是,鉴于哪些数据元素最具影响力的变异性,它限制了我们将一个流程的单一数据训练的模型应用于来自另一个流程的数据集的能力。随着脑成像寻求推进我们对大脑的基本理解,这一结果至关重要,因为它提醒我们,每个单独的流程允许我们测试一个特定但并非唯一的假设版本从而将大脑组织与感兴趣的问题相关联。因此,在进行此类工作时,不仅要适应单一流程,还要采用多个流程,这一点非常重要。

局限性:

     本研究的一个潜在限制是,它主要在使用传统MRI协议、标准数据质量且在采集时流行的数据集上进行,而不是使用日益采用但历史上难以获取的实践(例如,包含失真场图)。这一决定有两个关键因素驱动:首先,高特征化的测试-重测数据集,使用更现代的采集方法的可用性有限。迄今为止,大部分足够有力的测试-重测数据要么是单波段回波平面成像(EPI)数据,要么每个受试者的总时间不超过60分钟。虽然Midnight Scan Club集合为每个个体提供了更高质量的数据,但仅限于十名参与者的队列。其次,所使用的数据代表了或超过了大多数研究人员可获取的大多数fMRI数据集的质量——特别是那些临床人群的数据集(例如,ABIDE)。我们的补充和预测分析使用了来自HBN数据集的低运动和高运动参与者,这些参与者包括来自NIH ABCD研究的使用最先进fMRI(即多波段)和解剖序列获取的成像数据,显示了与HNU数据集相似的IPA值,尽管略有改善(补充信息第5节)。这减弱了仅通过改善数据质量就能提高不同处理流程或更广泛的分析工具之间一致性的希望。在多中心研究中,我们的建议与单中心研究几乎没有变化:应选择并在所有数据上使用多个流程;探索何时这一决策最优是未来研究的一个有趣方向。本研究的另一个限制是,仅评估了GSR(全局信号回归)这一唯一的去噪策略。我们探索仅GSR的动机并不是暗示它是预处理流程中唯一显著的去噪步骤;相反,我们旨在提供一个已知且广泛认可的工具间变异基准,可以用于定位观察到的流程间变异。其他去噪方法——如白质和脑脊液掩模回归、呼吸和心脏噪声去除以及ICA-AROMA——也可能影响预处理结果,值得在未来的工作中进行专门的考察。未来工作的另一个方向是探索基于表面流程中IPA的情况,这些流程尚未被全面研究。

      这里测试的数据和流程代表了功能神经影像学领域已被或将被使用的一个快照。然而,它们也展示了可重复性面临的挑战,这些挑战可能在各种脑成像研究模态——或更广泛的计算科学中普遍存在,并将在各领域前进时继续面临。我们展示了,仅仅现代化技术(例如,提高数据质量)并不能克服与IPA(流程间一致性)相关的挑战,反而可能放大这些挑战(例如,提高MNI模板质量)。此外,我们的发现激发了若干改进可重复性的考虑。或许最容易采取的行动是,出版物应包括所有数据处理软件的丰富且详细的规格(例如,工具版本、参数、模板、自定义代码),以促进可重复性,理想情况下,所有代码应通过公共存储库(例如,GitHub或Zenodo)公开。这种透明性同样应适用于质量控制实践,随着样本量的持续增长,自动化工具和定量质量控制阈值将变得越来越必要。除此之外,领域需要增加对工具测试的关注,以及将新流程基准对照一个或多个参考流程(例如,fMRIPrep–LTS和HCP流程)。采用与计算机科学和工业一致的评估标准不仅会提高工具和结果的透明度,还会为它们之间的关系提供更大的背景。在建立清晰的基准和工具间桥梁之前,对作者的一个建议是,使用辅助流程重复他们的分析,或通过扰动模板版本、输出分辨率或其他特定分析决策(在研究项目启动前指定)进行重复,并报告结果对所选流程的潜在依赖性。缺乏复制并不一定会削弱使用任何单一流程获得结果的价值,但会引起对潜在依赖性的关注,如果不加以考虑,可能会限制可重复性。C-PAC框架使科学家使用多个流程的过程相对容易。除了使用多个流程,还应确定跨流程结果整合的策略。根据分析目标,这可能涉及结果的聚合(例如,bagging)以生成复合发现,或结果的集成以改善预测。这在脑成像和数值不确定性方面最近已被证明是可行的。

     过去十年,功能神经影像学领域专注于优化流程内部的测试-重测可靠性,现在需要迎接一个新的重大挑战——流程间一致性。本研究引起了对最基本处理步骤的变异如何对成像结果产生重大影响的关注。本研究中提供的挑战和解决方案并非神经影像学特有,而是代表了更广泛的神经科学领域在成为可重复科学过程中需要经历的过程。

原文:Moving beyond processing- and analysis-related variation in resting-state functional brain imaging

;