“20多年来国际上植物研究领域中拟南芥参考基因组的标准一直由欧美国家定义,我们团队研究实现的拟南芥基因组质量是目前国际上的最高标准。”西安交大信息与生物医学交叉团队首席科学家叶凯表示,完整组装拟南芥基因组是当今科学界亟待破解的世界难题,而团队经过半年多的研究,实现了仅剩两个缺口、碱基精度为99.9999%的高质量拟南芥基因组Col-XJTU。该基因组以哥伦比亚生态型和西安交通大学英文缩写命名,凸显了西安交大科研团队在拟南芥基因研究中的重要贡献,也为世界植物基因组学研究提供了中国智慧。
近期,信息与生物医学交叉团队的研究成果以“基于HiFi和ONT超长读长的拟南芥高质量基因组组装”为题,发表在国际生物信息学著名学术期刊《基因组蛋白质组与生物信息学报》。电信学部教授叶凯、副教授杨晓飞为论文共同通讯作者,助理教授王博为第一作者,信息与生物医学交叉团队的多名博士和硕士研究生参与了该研究工作。
值得一提的是,该学报是由中国科学院主管的英文学术期刊,叶凯表示,“我们将所有的数据、研究成果发表在国内期刊,就是想把论文写在祖国大地上,把拟南芥参考基因组的话语权掌握在自己手里,国外科研人员要进一步进行基础研究和应用研究还得找我们要数据。”
拟南芥基因组研究为何重要?
拟南芥基因组组装流程示意图
破译生命遗传密码的故事要从20世纪兴起的“人类基因组计划”讲起,它与曼哈顿原子弹计划、阿波罗登月计划被并称为自然科学史上的“三大计划”。其计划在研究人类过程中建立起来的策略、思想与技术,构成了生命科学领域新的学科——基因组学,可用于研究微生物、植物及其他动物。
而拟南芥的研究就属于植物基因组研究范畴,拟南芥因其植株小、易繁殖、生长期短等特性,为遗传研究提供了极大的便利,在植物研究领域具有崇高的地位,被誉为“植物中的果蝇”。目前,全世界有一半的植物学家、近万家实验室正在对拟南芥进行遗传分析、基因克隆和功能基因组等科学研究,研究的突破可为粮食增产、农作物抗逆、植物保护等作出重要贡献。
在遗传研究中分析基因往往依赖于参考基因组,理论上,参考基因组应该是一个物种的全基因序列,但实际上,只有极少数动植物有100%的参考基因组。目前拟南芥参考基因组还存在大量的缺失序列,尤其是在细胞分裂过程中起到重要作用的着丝粒序列和与衰老相关的端粒序列。这些序列存在大量高度重复的片段,给基因组组装带来了巨大困难,阻碍了科学家对该区域序列及其功能的研究。
信息与生物医学交叉团队以人工智能算法开发、生物医学大数据挖掘为手段,设计了综合利用不同测序技术优势的混合测序策略,提出细菌人工染色体为锚点的序列替换新策略,实现了仅剩两个缺口的高质量拟南芥基因组Col-XJTU。王博解释道,“拟南芥共有5条染色体,团队研究的Col-XJTU基因组完成了三号、四号及五号染色体着丝粒的无缺口组装,并完成了一号和二号染色体大部分着丝粒的组装。”
基因组的碱基准确性和结构准确性是评估参考基因组质量的指标,数据显示,Col-XJTU基因组的碱基准确性和结构准确性均高于目前国际通用的、由美国实现的拟南芥参考基因组TAIR10.1。
学科交叉,结出丰硕成果
信息与生物医学交叉团队隶属于叶凯青年科学家工作室,工作室成立于2016年3月,是学校首个以科学家命名的青年科学家工作室,叶凯担任首席科学家。工作室从事大数据挖掘、算法设计、细胞工程、基因组学等多领域的交叉研究工作,不断产出重要原创性成果。
此次团队实现的高质量拟南芥基因组Col-XJTU是学科交叉成果的又一次体现。“我们团队相当于是学校学科交叉的试点,希望在不同学科汲取营养,结出更加丰硕的科研成果。”叶凯说。
团队中来自不同专业背景的研究人员,经过交流研讨,在无数次的测试、优化中寻求组装拟南芥参考基因组的最优策略。杨晓飞表示,“基于团队在鸦片罂粟及人类基因组组装所积累的经验,我们今年3月对拟南芥基因组做了初步组装,后又通过灵敏的、高精度的算法,捕捉到片段之间细小的差异,对组装进行了进一步的优化。”
团队在半年多的科研攻关中紧张有序,且充满竞争。今年5月底,同时研究拟南芥参考基因组的剑桥大学、约翰霍普金斯大学等科研团队在生命科学预印本平台“bioRxiv”公开了他们的研究进展。叶凯解释说,“在预印本平台公开成果等于是在相关研究领地率先插了一个旗子,我们紧接着在随后一周也在其平台公布了成果。数据证明,我们的拟南芥基因组组装质量比他们的高出很多,说明我们现在把旗子插稳了!”
组装完整的基因组面临的挑战,往往是那些测序技术无法区分的重复序列,这也是目前西安交大信息与生物医学交叉团队实现的Col-XJTU拟南芥基因组还有两个缺口的原因。“我们要敢为人先,向“无人之地”发起挑战,争取在目前实现的组装成果上继续努力,一定会有更大的突破。”王博说。