Bootstrap

使用规范建模分析脑成像数据的实证价值

在这项工作中,我们扩展了 Rutherford 等人(2022a)引入的规范模型库,加入了刻画结构表面积和脑功能连接的终身轨迹的规范模型。这些模型使用两个独特的静息态网络图谱(Yeo-17和Smith-10)进行测量,并提供了一个更新的在线平台用于将这些模型转移到新的数据源。我们通过规范建模输出特征与原始数据特征在几个基准测试任务中的直接对比来展示这些模型的价值,这些任务包括:群体差异的质量单变量检验(精神分裂症vs对照组)、分类(精神分裂症vs对照组)以及回归(预测一般认知能力)。在所有基准测试中,我们展示了使用规范建模特征的优势,其中在群体差异检验和分类任务中展现了最强的统计显著性结果。我们希望这些可访问的资源能够促进神经影像学界更广泛地采用规范建模。本文发表在eLife杂志。

编辑评价:这是对先前规范建模工作的严谨且引人注目的扩展。当前研究表明,整合结构和功能连接终身轨迹的规范模型为各类脑成像研究提供了坚实基础,包括单变量群体差异评估、分类和构建回归模型。这项工作重要、严谨,是对该领域的宝贵贡献。

介绍: 

     规范建模是一个用于绘制健康相关变量之间群体水平轨迹的框架,同时保持个体水平信息(Marquand等,2016a;Marquand等,2016b;Rutherford等,2022b)。健康相关变量是一个有意包容且广泛的定义,可能涉及人口统计学(如年龄和性别)、简单(如身高和体重)或复杂(如脑结构和功能、遗传学)的生物学测量、环境因素(如城市化、污染)、自我报告测量(如社会满意度、情感体验)或行为测试(如认知能力、空间推理)。

     在参考人群中绘制协变量(如年龄)和响应变量(如脑测量)之间关系的图谱,创建了一个定义人类变异单位的坐标系统。将个体置于这个坐标系统中,创造了表征其偏差特征的机会。虽然这是规范建模的重要方面,但通常只是第一步,也就是说,你往往对在下游分析中使用规范模型的输出感兴趣,以检测病例-对照差异、分层或个体统计。这个框架为此类分析提供了平台,因为它能有效地将不同的数据转换为相对于群体规范定义的一致尺度。

     规范建模已在多个学科领域得到广泛应用。最著名的例子可见于儿科医学,其中传统生长曲线图用于绘制儿童身高、体重和头围的发展轨迹(Borghi等,2006)。在神经科学领域,这种方法的推广已应用于精神病学、神经病学、发展心理学和认知神经科学等领域。通过这些众多应用,规范模型揭示了先前病例-对照框架的局限性,即它们过度依赖组内同质性的假设。这种病例-对照假设通常是过度简化的,特别是在精神病诊断类别中,用于将个体分类的临床标签往往不可靠、测量不准确,且可能无法清晰地对应到潜在的生物学机制。相应地,传统的病例-对照效应建模分析技术常常导致零发现或虽显著但临床意义很小的差异。这些效应经常对疾病或障碍缺乏特异性,且结果不一致或矛盾,导致其临床实用性值得质疑。

     除了规范建模的应用外,技术开发也在积极进行。由于规范建模日益流行,且认识到使用和开发这项技术的跨学科要求(临床领域知识、统计专业知识、数据管理和计算需求),研究兴趣已集中在开放科学和包容性价值观上,以支持这种跨学科科学工作。这些价值观包括开源软件、共享预训练大数据模型、用于交流和协作的在线平台、广泛的文档、代码教程和协议式出版物。

     本文的核心贡献首先是拓展Rutherford等人(2022a)的模型添加了用于表面积和功能连接的规范模型,这些模型对研究社区是开放和可访问的。其次,我们全面评估了规范模型在一系列下游分析中的实用性,包括:(1)质量单变量群体差异检验(精神分裂症vs对照组),(2)多变量预测-分类(使用支持向量机区分精神分裂症和对照组),以及(3)多变量预测-回归(使用主成分回归(PCR)预测一般认知能力)(图1)。在这些基准测试任务中,我们展示了使用规范建模特征相比使用原始特征的优势。我们旨在通过这些基准测试结果,连同我们公开可用的资源(代码、文档、教程、协议、社区论坛,以及无需使用任何代码即可运行模型的网站)。这些综合起来为接受规范建模提供了实践效用和科学证据。

图片

图1 工作流程概述

    (A) 数据集包括人类连接组计划(青年成人)研究、密歇根大学精神分裂症研究和生物医学研究卓越中心(COBRE)精神分裂症研究。

    (B) 对大规模静息态功能性脑网络和皮层厚度进行了开放共享、基于大数据预训练的常模模型估计。

    (C) 将功能和结构数据的偏差(Z)得分和原始数据输入三个基准测试任务:1. 组间差异检验,2. 支持向量机(SVM)分类,3. 回归(预测认知)。

    (D) 对每个基准测试任务计算评估指标。这些指标分别针对原始数据模型和偏差得分模型进行计算。计算了功能和结构模态两种模型性能之间的差异。

方法

数据集选择和扫描参数

     用于训练功能性常模模型的数据集与Rutherford等人(2022a)研究中包含的样本密切匹配,除了未收集或无法共享功能数据的研究点。功能性常模模型的评估在测试集(训练集的20%)和两个迁移集中进行,这些迁移集包括模型训练期间未见过的扫描点(临床患者和健康对照)。功能性常模模型训练中包含的完整数据详情可在附录1和补充文件1中找到。我们利用了几个数据集进行基准测试任务,包括人类连接组计划青年成人研究(HCP)(Van Essen等,2013)、生物医学研究卓越中心(COBRE)(Aine等,2017;Sui等,2018)和密歇根大学精神分裂症凝视研究(UMich)(Tso等,2021;表1)。选择HCP数据是因为它被神经科学界广泛使用,特别是在预测研究中。此外,使用HCP数据的先前研究在预测一般认知能力方面显示出有希望的结果(Sripada等,2020a)。HCP数据用于预测-回归基准测试任务。COBRE和UMich数据集用于分类和组间差异检验基准测试任务。所有数据集的纳入标准是参与者具有必要的行为和人口统计变量,以及高质量的MRI数据。正如我们先前的工作(Rutherford等,2022a)中所定义的,高质量结构图像是指没有任何伪影(如重影或振铃),Freesurfer表面重建能够成功运行,并且从Freesurfer计算的欧拉数(Klapwijk等,2019)(这是扫描质量的代理指标)低于选定的阈值(重标欧拉数<10)(Kia等,2022)。高质量功能数据遵循推荐做法(Siegel等,2017),定义为具有高质量结构MRI(用于配准和标准化)和至少5分钟的低运动数据(帧间位移<0.5毫米)。在预处理的几个任务期间(功能和结构数据配准后以及功能数据标准化到MNI模板空间后),对HCP、COBRE和UMich功能和结构数据进行了手动质量检查。

表1 数据集纳入和样本概述

图片

     所有受试者均提供了知情同意。受试者招募程序和知情同意书(包括共享去识别数据的同意)均获得数据收集所在大学相应机构审查委员会的批准。各研究的扫描采集参数相似,但略有不同,详见附录1。

人口统计、认知和临床诊断变量

      人口统计变量包括年龄、性别和MRI扫描仪地点。使用HCP数据为回归基准测试任务创建了一个称为一般认知能力(GCA)的潜在变量。HCP研究采用了NIH工具箱认知测验(Gershon等,2010),并拟合了一个双因素模型(有关建模细节和模型拟合评估的更多信息,请参见Sripada等,2020b)。对于COBRE和UMich研究,使用DSM-5疾病的结构化临床访谈(SCID)(First,1956)确认了精神分裂症的临床诊断。所有受试者均进行筛查,如果具有以下情况则被排除:神经系统疾病史、智力迟钝、严重头部创伤,或在最近6个月(UMich)或12个月(COBRE)内有物质滥用/依赖,正在怀孕/哺乳(UMich),或有任何MRI禁忌症。

图像预处理

     结构MRI数据使用Freesurfer(6.0版本)recon-all流程(Dale等,1999;Fischl等,2002;Fischl和Dale,2000)进行预处理,以重建体积数据的表面表征。然后从每个受试者的Freesurfer输出文件夹中提取皮层厚度和皮层下体积估计值(aparc和aseg),然后合并并格式化为csv文件(行=受试者,列=脑区ROI)。我们还共享了表面积模型,这些模型以与皮层厚度数据相同的方式从类似数据集中提取(详见补充文件2)。

     静息态数据使用fMRIPrep(Esteban等,2019)对每个研究分别进行预处理;然而,遵循最佳实践,对所有静息态数据进行了类似的步骤,包括多频段数据的场图校正、切片时间校正(非多频段数据)、功能数据到结构数据的配准、标准化到MNI模板空间、空间平滑(2倍体素大小,4-6毫米),以及干扰因素的回归(白质/脑脊液信号、非激进AROMA成分[Pruim等,2015a;Pruim等,2015b]、运动的线性和二次效应)。

     然后提取了17网络Yeo图谱(Yeo等,2011)的大规模脑网络,并使用完全相关计算网络间连接。我们还共享了使用Smith-10 ICA基础划分(Smith等,2009)的功能性常模模型,该模型包括皮层下覆盖,但基准测试任务仅使用Yeo-17功能数据。对相关矩阵进行Fisher r-to-z转换。如果有多次功能运行,则分别计算每次运行的连接矩阵,然后对一个受试者的所有运行进行平均。有关功能性MRI数据准备的更多详情,请参见附录1。

常模模型构建

     在数据集选择和预处理之后,使用预测临床神经科学工具包(PCNtoolkit)估计常模模型,这是一个用于常模建模的开源Python包(Marquand等,2021)。对于结构数据,我们使用了一个公开共享的预训练常模模型库,这些模型使用扭曲贝叶斯线性回归算法在约58,000名受试者上进行估计(Fraza等,2021)。用于训练结构性常模模型的协变量包括年龄、性别、数据质量指标(欧拉数)和地点。表面积的常模模型也被添加到同一存储库中(补充文件2)。通过解释方差、平均标准化对数损失、偏度和峰度确定模型拟合。常模建模的输出还包括所有脑区和所有受试者的Z分数或偏差分数。偏差分数表示个体与估计模型的人群相比的位置,其中正偏差分数对应于高于平均的皮层厚度或皮层下体积,负偏差分数表示低于平均的皮层厚度或皮层下体积。常模模型输出的偏差(Z)分数是基准分析中常模建模数据的输入特征。

     除了脑结构的常模模型外,我们还通过使用与结构模型相同的算法(贝叶斯线性回归)估计脑功能连接(静息态脑网络,Yeo-17和Smith-10)的常模模型来扩展我们的存储库。用于训练功能性常模模型的协变量与结构性常模模型类似,包括年龄、性别、数据质量指标(平均帧间位移)和地点。功能性常模模型在一个大型多地点数据集(约N=22,000)上进行训练,并在几个测试集中使用解释方差、平均标准化对数损失、偏度和峰度进行评估。训练数据集排除了任何已知精神病诊断的受试者。我们将功能性常模模型转移到本研究用于基准测试的数据集(表1)以生成偏差(Z)分数。HCP包含在初始训练中(一半样本保留在测试集中),而UMich和COBRE数据集未包含在训练中,可以被视为转移到新的、未见过的地点的例子。

"原始"输入数据

     我们在本研究中与常模建模输出进行比较的数据,称为"原始"输入数据,仅仅是结构和功能MRI传统预处理方法的输出。对于结构性MRI,这对应于运行Freesurfer recon-all流程后输出的皮层厚度文件。我们使用aparcstats2table和asegstats2table函数从Destrieux图谱和Freesurfer皮层下图谱中的每个区域提取皮层厚度和皮层下体积。对于功能性MRI,传统数据指的是从标准化、平滑、去噪的功能时间序列中提取的Yeo17脑网络连接组。每个受试者对称连接矩阵的上三角被向量化,其中每个单元代表一个独特的网络间连接。为了澄清,我们还注意到原始输入数据是常模建模分析的起点,换句话说,原始输入数据是在估计常模模型时从协变量向量预测的响应变量或自变量(Y)。在进入基准测试任务之前,为了在原始数据和偏差分数之间创建公平比较,使用最小二乘回归从原始数据(结构和功能)中回归出干扰变量,包括性别、地点、年龄的线性和二次效应以及头部运动(仅用于功能模型)。

基准测试

      基准测试在三个独立任务中进行,质量单变量组间差异检验、多变量预测-分类和多变量预测-回归,详细描述如下。在每个基准测试任务中,使用偏差分数作为输入特征估计一个模型,然后再次使用原始数据作为输入特征进行估计。对于任务一(组间差异检验),模型以单变量方法拟合,即对每个脑特征进行一次测试,而对于任务2和3(分类和回归),模型以多变量方法拟合。在每个模型拟合后,评估了性能指标,并计算了偏差分数和原始数据模型之间的性能差异,详细描述如下:

任务一:质量单变量组间差异检验

     对所有脑区进行质量单变量组间差异(精神分裂症与对照)检验。使用SciPy Python包(Virtanen等,2020)对数据进行双样本独立t检验。在进行多重比较校正后,FDR校正p<.05的脑区被认为具有显著性,并计算显示统计显著组间差异的区域总数。

     为了比较组间差异效应与个体差异,我们还总结了个体偏差图,并将此图与组间差异图进行比较。通过计算在给定脑区或网络连接对中具有"极端"偏差(Z>2或Z<-2)的个体数量来总结个体偏差图。这分别针对正偏差和负偏差以及每个组进行,并进行定性可视化(图4B)。为了定量比较个体差异图与组间差异,我们对每个组中极端偏差的计数进行了Mann-Whitney U检验。使用U检验是因为计数数据的分布是偏斜的(非高斯分布),而U检验正是为此设计的(Mann和Whitney,1947)。

任务二:多变量预测 - 分类

     支持向量机是机器学习研究中常用的算法,在分类设置中表现良好。支持向量机在高维空间中构建一组超平面,并优化以找到与任何类别最近训练数据点具有最大距离或边界的超平面。更大的边界代表类别之间更好的线性分离,并将对应于新样本中分类器的较低错误。位于边界边缘的样本也称为"支持向量"。决策函数提供每类得分,可以转换为类别成员资格的概率估计。我们使用scikit-learn包(1.0.9版本)(Pedregosa等,2011)中实现的线性核支持向量分类(SVC)来对精神分裂症组和对照组进行分类。这些默认超参数的选择基于遵循scikit-learn提供的SVC示例,然而,使用径向基函数核也获得了类似的结果(未显示)。选择这种区分精神分裂症和对照组的分类设置是由于过去的工作显示存在病例-对照组差异和个体差异(Wolfers等,2018)。分类任务的评估指标是在10折交叉验证框架内所有折叠的平均接收者操作曲线下面积(AUC)。

任务三:多变量预测 - 回归

     在HCP数据集中实现了线性回归模型以预测认知的潜在变量(一般认知能力)。脑基础集(BBS)是在先前研究中开发和验证的预测建模方法(Sripada等,2019;Sripada等,2019);另见Wager及其同事的类似方法研究(Chang等,2015;Wager等,2013;Woo等,2017)。BBS与主成分回归类似(Jolliffe,1982;Park,1981),但增加了预测元素。在训练集中,使用Python中scikit-learn的PCA函数对n_subjects × p_brain_features矩阵进行PCA,得到按降序特征值排序的成分。然后通过将每个受试者的特征矩阵投影到每个成分上,计算每个受试者的k个成分的表达得分。然后拟合线性回归模型,以这些表达得分作为预测变量,感兴趣的表型(一般认知能力)作为结果变量,保存B(k × 1拟合系数向量)以供后用。在测试分区中,再次计算每个受试者k个成分的表达得分。每个测试受试者的预测表型是从训练分区学习的B与该受试者的成分表达得分向量的点积。遵循先前工作(Rutherford等,2020),我们在所有模型中设置k=15。回归任务的评估指标是测试集中预测的均方误差。

基准测试:模型比较评估

     每个任务的评估指标(计数、AUC和MSE)分别针对偏差分数(Z)和原始数据(R)模型独立计算。更高的AUC、更高的计数和更低的MSE代表更好的模型性能。然后我们有一个观察到的感兴趣统计量theta,它代表偏差和原始数据模型性能之间的差异:

θtask1=Countz−CountR 

θtask2=AUCz−AUCR 

θtask3=MSER−MSEz

     为了评估θ是否比偶然预期的可能性更大,我们使用排列生成theta的零分布。在排列框架的一次迭代中,通过打乱标签生成随机样本(在任务1和2中我们打乱SZ/HC标签,在任务三中我们打乱认知标签)。然后使用这个样本训练偏差和原始模型,确保在偏差分数和原始数据数据集中使用相同的行打乱方案(对于每个排列迭代)。评估打乱的模型,并为每次标签随机打乱计算θperm。我们设置n_permutations=10,000,并使用θperm的分布来计算每个基准测试任务中θobserved的p值。排列p值等于(C+1)/(n_permutations+1)。其中C是θperm>=θobserved的排列次数。这里描述的相同评估程序(包括排列)针对皮层厚度和功能网络模态都进行了。

结果

功能性大数据常模模型的共享

     本研究的第一个结果是功能性大数据常模模型的评估(图2)。这些模型建立在Rutherford等人2022a的工作基础上,在该工作中,我们共享了描绘人类终身(2-100岁)皮层厚度和皮层下体积的群体水平结构性常模模型。用于训练功能模型的数据集、样本的年龄范围和评估程序与结构性常模模型密切相似。用于训练和测试功能模型的样本量(约N=22,000)小于结构模型(约N=58,000),这是由于数据可用性(即一些包含在结构模型中的地点没有收集功能数据或无法共享数据)和质量控制程序(见方法)。然而,尽管功能数据参考队列的样本量较小,评估指标的范围与结构模型非常相似(图3)。最重要的是,我们展示了将功能模型转移到新样本的机会,即未包含在原始训练和测试集中的地点(称为迁移集),并显示迁移在临床样本(图3-迁移患者)或健康对照样本(图3-迁移对照)中都运作良好。

图片

图2. 功能性脑网络常模建模

    (A) 训练、测试和迁移数据分区以及整个样本(训练+测试)中每个扫描地点的年龄分布。

    (B) 使用Yeo-17脑网络图谱生成连接组。计算了所有17个网络之间的网络间连接,产生136个独特的网络对,每个都单独输入到功能性常模模型中。

    (C) 对照组测试集(N=7244)中Yeo-17图谱的136个独特网络对中每一个的解释方差。为了显示相似的方差模式,对网络进行了聚类可视化。

图片

图3. 功能性常模模型评估指标

     (A) 测试集(顶部)和两个迁移集(患者-中间,对照-底部)中每个网络对的解释方差。为了显示相似的方差模式,对网络进行了聚类可视化。

    (B) 在测试集(顶行)和两个迁移集(中间和底行)中所有模型的评估指标(列)分布。更高的解释方差(接近1),更负的MSLL(均方标准化对数损失),以及正态分布的偏度和峰度对应于更好的模型拟合。

常模建模在质量单变量组间差异中显示更大效应量

     拥抱常模建模的最强有力证据可以在基准测试任务一组间差异(精神分裂症与对照)检验结果中看到(表2,图4)。在这个应用中,我们观察到在应用严格的多重比较校正(FDR p值<0.05)后,功能和结构偏差分数模型中存在多个组间差异。结构模型中最强的效应(HC>SZ)位于右半球外侧枕颞沟(S_oc_temp_lat)厚度、右半球岛叶环形沟上段(S_circular_ins_sup)厚度、右侧伏隔核体积、左半球缘上回(G_pariet_inf_Supramar)厚度,以及左半球下枕回(O3)和沟(G_and_S_occipital_inf)厚度。对于功能模型,最强的效应(HC>SZ t统计量)观察到在视觉A-默认B、背侧注意A-控制B和视觉B-边缘A之间的网络连接。在原始数据模型中,这些模型已经去除了协变量(包括地点、性别、年龄的线性+二次效应和头部运动(仅包含在功能模型中))的影响,我们观察到在多重比较校正后没有组间差异。原始数据中缺乏任何组间差异最初是一个令人困惑的发现,因为文献中报告了组间差异。然而,在研究未校正的统计图时,我们观察到原始数据遵循与偏差组间差异图相似的模式(图4),但这些结果无法通过多重比较校正。有关每个ROI的校正和未校正p值及检验统计量的完整统计信息,请参见补充文件3和4。虽然文献中报告了对照组和精神分裂症在皮层厚度和静息态脑网络方面存在组间差异,但这些研究使用了不同的数据集(样本量不同)、不同的预处理流程和软件版本,以及不同的统计框架(引用多篇文献)。在回顾有关SZ与HC组间差异检验的文献时,我们没有发现任何研究在ROI水平或网络水平进行单变量t检验和多重比较校正,而是大多数工作在体素水平或边缘水平使用统计检验和多重比较校正。结合精神分裂症疾病中已知的异质性模式(Lv等,2021;Wolfers等,2018),我们的结果与过去的研究不同并不令人意外。

表2基准测试结果 

图片

偏差(Z)分数列显示使用偏差分数的性能(分类的AUC、病例与对照组间显著差异FDR校正p<0.05的区域总数、回归的均方误差),原始列代表使用原始数据时的性能,差异列显示偏差分数和原始数据之间的差异(偏差-原始)。更高的AUC、更高的计数和更低的MSE代表更好的性能。差异列中的正值表示在分类和组间差异任务中使用偏差分数作为输入特征时性能更好,回归任务中的负性能差异值表示使用偏差分数时性能更好。*=使用排列检验(10k次排列)建立的Z和原始之间的统计显著差异。

图片

图4. 组间差异检验评估

(A) 偏差分数模型中的显著组间差异,(左上)功能性脑网络偏差,和(右上)皮层厚度偏差分数。原始数据,无论是皮层厚度还是功能性脑网络(去除性别和年龄的线性/二次效应以及运动(平均帧间位移)的影响),在多重比较校正后都没有显示显著的组间差异。为了显示相似的方差模式,对功能网络进行了聚类可视化。

(B) 仍然观察到与组间差异图不重叠的个体差异,显示了常模建模的优势,它可以通过对变异的适当建模同时检测组差异和个体差异。为了显示相似的方差模式,对功能网络进行了聚类可视化。

(C) 在个体差异图(面板B)的汇总(计数)中存在显著的组间差异。

     组间差异图与个体差异图的定性(图4B)和定量(图4C)比较显示了常模建模的额外优势 - 它可以揭示仅观察组平均值时会丢失的微妙个体差异。个体差异图显示,在每个脑区或连接处,患者和临床组中至少有一个人具有极端偏差。我们发现在负偏差计数(SZ>HC)方面,皮层厚度(p=0.0029)和功能网络(p=0.013)都存在显著差异,在皮层厚度正偏差计数(HC>SZ)方面也存在显著差异(p=0.0067)。

常模建模在使用皮层厚度时显示最高的分类性能

     在基准测试任务二中,我们在10折交叉验证框架内使用SVC对精神分裂症与对照组进行分类(表2,图5)。性能最好的模型使用皮层厚度偏差分数达到87%的分类准确率(AUC=0.87)。原始皮层厚度模型准确率与随机准确率无法区分(AUC=0.43)。皮层厚度偏差和原始数据模型之间的AUC性能差异为0.44,这种性能差异具有统计显著性。功能模型,无论是偏差分数(0.69)还是原始数据(0.68)都比随机准确率更准确,但是性能差异(即使用偏差分数的准确率改善)很小(0.01)且没有统计显著性。

图片

图5 基准任务二 多变量预测 - 分类评估

(A) 使用皮层厚度偏差分数作为输入特征的支持向量分类(SVC)(最准确的模型)。

(B) 使用皮层厚度(去除性别和年龄的线性/二次效应)作为输入特征的SVC。

(C) 使用功能性脑网络偏差分数作为输入特征的SVC。

(D) 使用功能性脑网络(去除性别和年龄的线性/二次效应以及运动(平均帧间位移))作为输入特征的SVC。

常模建模在预测认知方面显示适度的性能改善

     在基准测试任务三中,我们在人类连接组计划青年成人研究的留出测试集中拟合多变量预测模型,以预测一般认知能力(表2)。这项任务提供的证据弱支持偏差分数模型。最准确(最低均方误差)的模型是偏差皮层厚度模型(MSE=0.699)。然而,与原始数据模型(MSE=0.708)相比,偏差分数模型仅改善了0.008,这种差异没有统计显著性。对于功能模型,偏差分数(MSE=0.877)和原始数据(MSE=0.890)模型都不如结构模型准确,它们之间的差异(0.013)也没有统计显著性。

讨论

    本研究扩展了可用于进行常模建模分析的开源工具,并提供了明确的证据说明为什么神经影像学界(及其他领域)应该使用常模建模。我们更新了我们公开可用的预训练常模模型库,加入了新的MRI成像模态(从Yeo-17和Smith-10脑网络图谱提取的静息态功能连接模型),并展示了如何将这些模型转移到新的数据源。该库包括一个示例转移数据集,此外,我们还开发了一个用户友好的界面(https://pcnportal.dccn.nl/),允许将预训练常模模型转移到新样本而无需任何编程。接下来,我们在几个基准测试任务中比较了常模建模输出的特征(偏差分数)与"原始"数据特征,这些任务包括单变量组间差异检验(精神分裂症vs对照)、多变量预测-分类(精神分裂症vs对照)和多变量预测-回归(预测一般认知能力)。我们发现,在所有基准测试任务中,使用偏差分数相比原始数据特征有轻微(回归)到强烈(组间差异检验)的好处。

    偏差分数模型表现优于原始数据模型的事实证实了将个体置于参考模型中的效用。我们的结果表明,常模建模可以捕捉人群趋势,揭示临床组差异,并保持研究个体差异的能力。我们对为什么偏差分数模型在基准测试任务中表现优于原始数据有一些直观认识。通过常模建模,我们考虑了许多不一定具有临床意义的方差来源(如地点),并且我们能够在参考队列视角内捕捉具有临床意义的信息。参考模型的帮助超出了仅仅去除扫描仪噪音等混杂变量,因为我们显示,即使从原始数据中去除干扰协变量(年龄、性别、地点、头部运动),常模建模特征在基准测试任务中仍然表现更好。

    关于常模建模的方法创新和应用的先前工作(Kia等,2018;Kia等,2020;Kia等,2021;Kia和Marquand,2018)聚焦于框架的初始基础步骤(即数据选择和准备、算法实现以及仔细评估样本外模型性能)。然而,该框架并不在模型拟合数据(估计步骤)和建立性能指标(评估步骤)后就结束。将模型转移到新样本、解释结果和潜在的下游分析同样是重要的步骤,但它们受到的关注较少。当涉及到解释模型输出时,即使在对数据拟合常模模型之后(这应该是病例vs对照方法的替代方案),也容易回到病例-对照思维范式。这部分是由于结果存在于非常高维空间中带来的挑战。有合理的需求来提炼和总结这些高维结果。然而,重要的是要记住,在有足够复杂性来解释数据的模型和为了解释简单性而进行的维度减少之间总是存在权衡。这种提炼过程往往导致回到将个体分组(即病例-对照思维)并解释组模式或寻找组效应,而不是在个体水平上解释结果。我们承认理解相对于组平均值的个体变异(病例-对照思维)的价值和互补性质,并澄清我们并不声称常模建模优于病例-对照方法。相反,我们从这项工作得到的结果,特别是在组间差异图与个体差异图的比较中(图4),表明常模建模的输出可以用来验证、完善和进一步理解病例-对照文献中的一些不一致发现。

局限性:

    当前工作存在几个限制。首先,功能性常模模型的表征可能令人惊讶和担忧。通常,静息态连接矩阵使用包含100-1000个节点和5000-500,000个连接的划分计算。然而,特别选择Yeo-17图谱(Yeo等,2011)是因为它的广泛使用,以及许多其他(更高分辨率)功能性脑划分已被映射到Yeo脑网络。关于功能性脑活动的最佳表征仍存在持续争议。使用Yeo-17脑网络来模拟功能连接忽略了关于脑动力学、灵活节点配置、重叠功能模式、硬划分与软划分以及许多其他重要问题的考虑。我们也共享了使用Smith-10 ICA基础划分的功能性常模模型,尽管没有使用这些数据重复基准测试任务。除了我们的划分选择外,关于脑功能架构的本质,包括它如何被定义和测量,还存在一些基本的开放性问题。虽然参与这些争论超出了本工作的范围,但我们承认它们的重要性,并建议感兴趣的读者参考功能连接挑战的全面综述(Bijsterbosch等,2020)。

     我们还想扩展我们先前关于参考队列人口统计学限制和"常模"一词使用的讨论(Rutherford等,2022a)。本工作中用于训练功能性常模模型的包含样本,以及Rutherford等(2022a)中的结构性常模建模样本,很可能过度代表了欧洲血统(WEIRD人群Henrich等,2010),这是因为数据来自学术研究研究,不符合全球人口统计。由于数据可用性(许多地点没有提供种族或民族信息),我们的模型不包括种族或民族作为协变量。先前研究支持使用特定年龄的模板和特定民族的生长图表(Dong等,2020)。这是一个需要额外未来工作的主要限制,在将模型转移到多样化数据时应该仔细考虑(Benkarim等,2022;Greene等,2022;Li等,2022)。"常模模型"这个术语在其他领域的定义方式与我们的非常不同(Baron,2004;Colyvan,2013;Titelbaum,2021)。我们澄清,我们的是严格的统计概念(常模=在人群中心趋势范围内)。关键的是,我们不是在道德或伦理意义上使用常模,我们也不是在建议具有高偏差分数的个体需要采取行动或干预以拉向人群平均值。尽管在某些情况下这可能是真实的,但我们绝不假设高偏差是有问题的或不健康的(它们实际上可能代表适应性的补偿性变化)。在任何情况下,我们严格地将统计常态的大偏差视为预测感兴趣的临床状态或条件的标志。

未来方向:

     关于常模建模还有许多开放的研究问题。未来的研究方向可能包括:

     (1)进一步扩展开源预训练常模建模库,以包括额外的MRI成像模态,如基于任务的功能性MRI和扩散加权成像,其他神经影像学模态如EEG或MEG,以及包括其他非生物学测量的模型;

    (2)提高现有模型的分辨率(即体素、顶点、脑结构模型和更高分辨率的功能划分);

    (3)在其他数据集中复制和完善提出的基准测试任务,包括超参数调整和不同的算法实现,以及改进回归基准测试任务;

    (4)包括超出此处考虑的额外基准测试任务。

     最近关于脑-行为模型的"失败分析"的有趣工作(Greene等,2022),我们想强调常模建模是进行这种类型分析的理想方法。通过常模建模,可以探索诸如"分类良好的受试者与分类不良好的受试者之间的共同模式是什么"等研究问题。最近的额外工作(Marek等,2022)强调了脑-行为建模界必须面对的重要问题,如成像数据的可靠性差、预测模型的稳定性和准确性差,以及准确预测所需的非常大的样本量(超过甚至最大的神经影像样本)。也有工作显示脑-行为预测比底层功能数据更可靠(Taxali等,2021),其他改进脑-行为预测模型的想法在这里深入讨论(Finn和Rosenberg,2021;Rosenberg和Finn,2022)。尽管如此,我们承认这些挑战,并相信共享预训练机器学习模型和进一步发展这些模型的迁移学习可能有助于进一步解决这些问题。

总结:

     在这项工作中,我们关注了常模建模框架的下游步骤,涉及评估和解释,以及如何在多个层面获得见解。通过对不同变异来源的精确建模,在人群、临床组和个体层面都可以获得大量知识。

;