2016年11月,国际学术期刊Genome Biology在线发表了中国科学院北京生命科学研究院计算基因组学实验室赵方庆团队题为“A novel codon-based de Bruijn graph algorithm for gene construction from unassembled transcriptomes”的最新研究成果。该研究提出一种基于密码子de Bruijn图的新算法,基于非拼接策略直接对转录组测序数据进行编码基因识别和重建,解决了编码基因识别效率低且不完整的难题,该方法在非模式生物的进化基因组研究领域具有很大的应用前景。

近年来,随着高通量测序和高性能计算技术的发展,大量的基因组测序计划得以实施完成,由此产生海量转录组测序数据。面对这些大数据,首要任务是要得到它们的编码基因序列。传统基因识别工具主要依赖于RNA-seq组装软件得到的转录本进行基因鉴定,然而,由于组装软件对测序错误高度敏感并且不能有效处理重复序列区域,因此导致在此基础上进行基因识别会产生大量高度冗余和片段化的基因序列。除此之外,这些工具过度依赖同源基因数据库或参考基因组,不能很好地应用于非模式物种的转录组数据。

针对这些问题,赵方庆团队开发出一种基于密码子de Bruijn图的新算法-inGAP-CDG。该方法不依赖于参考基因组,直接从未拼接的转录组测序数据中进行基因识别。与其它方法相比,inGAP-CDG构建出的编码基因序列具有长度更长、冗余度更低和特异度更高的优势。该研究为基因识别提供了新的思路和方法,进而对此后的系统发育和功能基因组学研究具有重要的应用价值。

该工作由赵方庆课题组的彭公信和冀培丰共同完成,并得到国家自然科学基金委和科技部重点研发计划的经费支持。

来源: 中国生物技术网


更多内容请关注我们的官方微信公众号“生信圈”,微信ID:bioinfor-club
生信圈二维码.jpg扫一扫二维码关注