南开新闻网讯(通讯员 陈盛泉)单细胞多组学测序技术可以同时捕获单个细胞的多种不同组学数据,是揭示细胞异质性与理解基因组调控机制的重要手段。然而,与单组学测序技术相比,多组学测序技术存在技术复杂、灵敏度与通量较低、噪声和成本较高等问题,这使得基于多组学数据的联合分析面临巨大挑战。因此,如何通过计算方法将单组学数据转换成另一种组学的数据,从而构成单细胞的多组学数据,成为一个亟待解决的问题。
4月6日,南开大学数学科学学院陈盛泉课题组在《自然·通讯》(Nature Communications)上发表题为“scButterfly:一种基于耦合变分自编码器的多功能的单细胞数据跨组学转换方法”的文章。该研究提出了一种名为scButterfly的基于耦合变分自编码器的单细胞跨组学转换方法,同时提出了多种数据扩增方法,通过在语义级别对不同组学的潜在表示进行对齐,学习跨组学转换关系,能够被广泛应用于多种下游任务中。
scButterfly模型示意图
基本的scButterfly模型(scButterfly-B)包括七个主要模块:两个编码器、两个解码器、一个转换器和两个判别器。编码器将不同组学的数据投影到组学特定的隐空间,而解码器将转换后的隐空间表示映射回原始特征空间。为减轻假阴性噪声的影响并轻量化参数空间,scButterfly采用了一种掩码策略并为不同染色体之间节点的连接进行剪枝。转换器作为一个生成器实现不同组学隐空间表示的转换,而判别器进行对抗训练以对齐转换器对于特定组学的输入和输出。为解决训练样本有限、数据噪声大等问题,该研究进一步提出了适用于多种场景的数据扩增方法。
通过在多个数据集上进行综合实验,文章系统地展示了scButterfly在进行跨组学数据转换时的优异性能。与现有方法相比,scButterfly能够更有效地保留细胞异质性,并在多种复杂情况下完成转换,同时为不同组学提供有价值的生物学见解。此外,该研究还介绍了scButterfly在单细胞多组学整合分析、单细胞数据增强以及scATAC-seq数据细胞类型注释等方面的广泛应用,并展现了scButterfly利用数据扩增以及最优传输方法,推广至非配对数据训练和单细胞扰动响应分析的能力。最后,该研究介绍了scButterfly从表观组经转录组到蛋白组的连续转换能力以及揭示全新的细胞类型标志物的巨大潜力。
南开大学为该项工作的第一完成单位及通讯单位。南开大学陈盛泉副教授为文章通讯作者,南开大学数学科学学院2019级本科生曹一川为第一作者。该研究得到了国家青年人才托举工程、国家自然科学基金委、中央高校基本科研业务费的资助。
文章链接:https://www.nature.com/articles/s41467-024-47418-x
|