Bootstrap

【论文阅读】GraCEImpute: A novel graph clustering autoencoder approach for imputation of scRNA-seq data

论文地址:GraCEImpute: A novel graph clustering autoencoder approach for imputation of single-cell RNA-seq data - ScienceDirect

代码地址: https://www.healthinformaticslab.org/supp/


摘要

单细胞RNA测序(scRNA-seq)技术为解析不同生物系统中的细胞异质性提供了独特视角。然而,由于技术限制,scRNA-seq数据存在较高的掉落率(dropout rate),导致大量数据丢失,从而对后续分析带来计算挑战。

本研究提出了一种基于图聚类自动编码器(GCAE)的新型缺失值填补方法——GraCEImpute,以应对scRNA-seq数据中的缺失数据问题。综合评估结果表明,GraCEImpute模型在准确填补scRNA-seq数据中的掉落零值方面优于现有方法。

此外,该模型在下游scRNA-seq数据分析中表现出显著提升,包括聚类分析、差异基因表达(DEG)分析和细胞轨迹推断。这些改进突显了GraCEImpute模型在scRNA-seq数据分析中的潜力,有助于更深入地理解细胞过程及其异质性。

引言

细胞是生命的基本构成单位,在单细胞和多细胞系统中展现出高度的功能多样性[1,2]。单细胞RNA测序(scRNA-seq)技术的出现极大地促进了对细胞异质性的研究,使得科学家能够通过解析组织中的不同细胞类型和状态,获得前所未有的深刻见解[3,4]。scRNA-seq通过全转录组测序描绘细胞内外相互作用的整体图景,揭示复杂的细胞群体、基因调控网络及发育过程中的谱系轨迹[5,6]。此外,研究人员还利用scRNA-seq解析肿瘤免疫中的关键细胞相互作用,鉴定新生胸腺细胞群,并推动对造血及免疫应答的理解[7–9]。

然而,scRNA-seq的应用受到了技术局限的影响,例如高扩增偏倚(amplification bias)和低覆盖度(low coverage),主要由于mRNA在逆转录过程中丢失(即掉落事件,dropout events)[10–13]。如何处理scRNA-seq数据中的缺失值已成为当前研究的重点。AutoClass工具结合自动编码器(autoencoder)和分类器以增强信号保真度[14]。GE-Impute和IGSimpute利用基于图(graph-based)的模型进行数据插补[15,16]。MAGIC和SAVER采用信息扩散及信息借用技术来恢复数据[17]。DCA和scGMAAE通过先进的统计建模方法提高数据完整性和分析质量[18,19]。AGImpute使用动态阈值估计策略,并结合自动编码器和生成对抗网络(GAN)的混合深度学习模型来填补单细胞数据[20]。然而,现有方法往往忽略了细胞之间的复杂关系,而这些关系对于数据填补的准确性及下游分析至关重要。

自动编码器不仅广泛用于单细胞数据填补,还被应用于其他数据类型,如电子病历。Pereira等人[21]提出了一种基于变分自动编码器(VAE)的部分多重插补方法来补全医疗数据,并提高了下游分类任务的性能。Xu等人[22]开发了一种动态多模态变分自动编码器(dynamic multimodal variational autoencoder),可用于实验室检测、电子健康记录、盆腔超声检查及放射影像报告等多种数据类型,并利用不同模态之间的内在关联性进行缺失模态的填补。

近年来,研究人员尝试多种方法来建模细胞间关系,并分析其对细胞功能的影响。例如,Korn等人[23]和Yu等人[24]分别应用Prim算法和k近邻(KNN)算法研究细胞连通性及其功能影响。然而,目前针对细胞互联性的系统性研究仍然有限。

本研究提出了一种新的细胞关系建模方法,基于图聚类自动编码器(Graph Clustering AutoEncoder, GCAE)构建GraCEImpute框架,将自动编码器(AE)技术与聚类损失结合,以优化特征空间的表示,从而提升数据点的分布质量。GraCEImpute通过集成聚类与重构损失,实现聚类标签分配与特征学习的同步优化。其增强的聚类分析能力及局部结构保持能力,使GraCEImpute成为scRNA-seq研究领域的一项重要补充资源。

模型

GraCEImpute框架(图1)由三个核心模块组成:细胞图的综合表示和图聚类自动编码器。

各模块的详细介绍如下:

  1. 细胞图的综合表示:该模块通过整合三种不同的图构建方法,合成最优的细胞-细胞交互图。综合细胞图能够捕捉细胞间的复杂关系,并为后续分析提供基础。

  2. 图聚类自动编码器(GCAE):GCAE利用图注意力网络(Graph Attention Network, GAT)学习每个节点的低维嵌入表示。这些嵌入表示用于通过解码器重构图的结构和特征矩阵。重构后的特征矩阵被插补回原始数据集,从而生成最终的填补数据集。

GraCEImpute框架基于上述三个核心模块,有效解决了scRNA-seq数据中的缺失值问题,并确保填补后的数据集适用于下游分析。

细胞-细胞连接分析

本研究采用综合方法推断细胞-细胞相互作用,并重构细胞相似性网络。具体步骤如下:

  1. K近邻(KNN)算法:首先,利用KNN算法计算细胞间的欧几里得距离,以构建邻接矩阵 [29]。

  2. 图嵌入技术:其次,采用图嵌入技术,通过带偏随机游走(biased random walks)结合广度优先(BFS)和深度优先(DFS)采样策略,系统性地探索邻近细胞 [15]。

  3. Prim算法:最后,应用Prim算法构建最小生成树(MST),以最小化网络中所有连接的权重之和,确保细胞连接关系的最优表达 [23]。

本研究采用多数投票机制(majority-voting)来构建最终的邻接矩阵,每个计算出的邻接矩阵均等地贡献权重。具体而言,对于三种方法得到的邻接矩阵A₁、A₂和A₃,基于投票机制决定两细胞是否存在连接:

  • 仅当两个邻接矩阵均显示两细胞间存在边连接时,最终邻接矩阵中才会保留该连接。
  • 如果仅一个或没有邻接矩阵显示该连接,则最终邻接矩阵中不会存在该连接。

其中,在KNN方法中,K的默认值设定为5。该聚合技术确保最终的邻接矩阵融合了多种方法的不同视角,从而增强细胞-细胞连接表示的鲁棒性和可靠性

图聚类自编码器

图聚类自编码器(Graph Clustering Autoencoder, GCAE)采用双组件结构(如图2所示)。

GCAE模型使用复合损失函数,由均方误差(MSE)损失Kullback-Leibler(KL)散度损失两部分组成。其中,MSE损失来源于图自编码器(GAE),而KL散度损失用于衡量聚类分布之间的差异 [34]。

KL散度损失的定义如下:

GCAE模型的总损失函数是上述损失项的加权和,公式如下:

其中,Lmse 代表自编码器的重构损失,Lkl代表聚类损失,而 γ 是超参数,用于平衡两者的重要性。

训练与优化

本研究提出的 GraCEImpute 框架 采用 Python 3.9 版本,并基于 PyTorch 库实现。优化过程采用 Adam优化器,默认学习率为 0.0005

GCAE的聚类损失计算基于模型隐藏层中的软分类(soft classification)。其中,GCAE部分使用 K-means 进行聚类标签预测,并默认聚类中心数量设定为 10

早停机制(Early Stopping)

为防止过拟合,模型训练过程中采用早停机制(early stopping)。当满足以下任一条件时,训练停止:

  1. 训练达到预定义的最大迭代次数(epoch)
  2. 训练损失在连续 5 轮迭代中变化小于 1e-4
  3. 训练损失在 5 轮迭代内连续上升。
  4. 聚类模型的预测变动(delta_label)在两个连续迭代间小于 0.001

其中,delta_label 用于衡量模型在相邻两个迭代周期中的聚类变化程度,计算公式如下:

其中,

  • yi为当前迭代周期第 i个样本的聚类标签;
  • zi 为前一迭代周期第 i个样本的聚类标签;
  • N 为总样本数;
  • Count(True)=1,Count(False)=0。

该度量方式可以有效监控模型收敛情况,并在聚类结果稳定时停止训练。

实验


这篇论文着眼于缺失值的插补上,利用细胞-细胞连接分析。

;