近日,学校计算机科学与技术学院西安市计算生物信息学重点实验室高琳教授团队在单细胞组学数据模式挖掘领域发表2篇重要研究成果:团队青年教师胡宇轩(华山菁英副教授)和博士生张晨星分别以西电为第一单位在Science子刊《Science Advances》(IF=13.1,中科院一区)及领域著名期刊《Briefings in Bioinformatics》(IF=8.99,中科院一区)发表论文,这是该团队继《Nature Communications》后又一NS子刊研究成果。
论文“CytoTalk: De novo construction of signal transduction networks using single-cell transcriptomic data”瞄准领域内重要科学问题,开发了一种从头构建细胞类型特异性信号转导网络的新算法CytoTalk。据悉,高琳教授团队自2003年起重点研究基于网络模型的生物医学数据模式发现方法理论及应用,具有较强的网络建模研究基础。因此,在该项工作中,研究人员利用单细胞转录组数据,将信号网络推断问题转化为图论中斯坦纳森林问题求解。CytoTalk不依赖于已知的信号通路注释信息,能够刻画信号网络在不同组织和不同细胞类型间的异质性,有望揭示健康组织或肿瘤微环境中的细胞间通讯新机制。
CytoTalk算法首先构建了一张集成基因网络作为拓扑骨架,包括细胞内和细胞间基因相互作用。在网络中,节点权重定义为奖励(即细胞特异性基因活性),边权重定义为代价(即两个基因间相互作用概率)。通过在该赋权集成网络中求解奖励-收集斯坦纳森林(prize-collecting Steiner forest, PCSF)问题来识别两种细胞类型间的信号转导网络。PCSF问题的目标是在集成网络中找到一个最优子网,包含具有高水平细胞类型特异性表达和与高活性配体-受体对紧密关联的基因。该项研究发表后受到BioArt微信公众号的关注和报道:https://mp.weixin.qq.com/s/Q8y4O47DZlmdPCT-vxbFYg
博士生张晨星为论文“Improving Single-Cell RNA-seq Clustering by Integrating Pathways”的第一作者,该论文为单细胞聚类研究提供了全新的观点:集成细胞在生物通路层面的特征可以显著提高单细胞聚类性能。人体中细胞总量以万亿计,包含的细胞类型更是不计其数。全面系统地识别出人体所有的细胞类型是了解人类健康以及诊断,监测和治疗疾病的基础。近几年,单细胞测序技术不断产生高质量的转录组数据,对单细胞转录组数据进行聚类成为识别细胞类型最重要的一环。然而,单细胞聚类方法依然面临准确性差,鲁棒性不高等问题。
该论文设计了一套系统性的集成和评估框架sciPath,包含集成生物通路信息的方法,和一系列评价单细胞聚类准确性和鲁棒性的指标。该框架比较了现有单细胞聚类方法在集成生物通路信息前后的性能,发现生物通路信息可以提供更有效且稳定的细胞类型信号。同时,研究者对生物通路信息的冗余对提升聚类效果的影响进行讨论。