加利福尼亚大学旧金山分校(UCSF)、BioNano Genomics公司和10X Genomics公司的研究人员最近推出了一种新方法,用于人类基因组序列的从头组装(de novo assembly)及定相(phasing),该方法结合了short-read测序、linked-read测序以及基因组作图。相关成果于5月9日发表在《Nature Method》上,是对去年西奈山伊坎医学院Matthew Pendleton等人方法的扩展。

Pendleton等人的方法利用Pacific Biosciences公司的long-read序列,但UCSF领导的研究小组将其换成了10X Genomics公司的linked-read数据。已有研究表明10 X的数据可用于检测人类生殖细胞系和癌症基因组单倍型。

UCSF的Pui-Yan Kwok和他的同事还进行了一项试点研究,利用这种方法对来自HapMap计划的一个基因组进行测序和组装,发现他们的方法与其他方法相比效果相当,甚至更好。

新方法的具体思路

研究人员在文章中指出,阻碍人类基因组组装质量提高的原因包括,人类基因组的重复性、与其他真核生物基因组的相似性、二倍体特性以及缺乏能产生精准long reads而且成本低的DNA测序平台。

Kwok和他的同事写道,“通过这项原理验证研究,我们发现可以结合三组互补的图谱/测序数据来克服这些问题,这些数据可以在一般的实验室中短时间内同时生成,并且成本合理。”

Kwok和他的同事描述的新方法主要依赖于两种平行过程。首先用SOAPdenovo短寡核苷酸分析软件将Illumina测序reads组装。为了将得到的scaffolds组装成更长的片段,研究人员将10X GemCode平台产生的序列数据结合到组装中,利用fragScaff程序生成新的scaffold。同时,他们还利用BioNanoGenomics公司的Irys系统生成了一个序列基序的物理图谱,将这个物理图谱与10X数据生成的scaffold结合,最终生成一个混合组装的基因组图谱。进一步利用10X公司的Long Ranger软件对混合组装得到的scaffolds进行phasing,用BioNano Genomics的物理图谱帮助解决一些重复区域的问题。

对HapMap样本NA12878的试点研究

作为一项试点研究,研究人员用这个方法对HapMap样本NA12878进行组装和phasing。

最初利用Illumina组装的NA12878基因组产生了超过1.4万个scaffolds,scaffold N50为0.59Mb,而利用10X和BioNano Genomics图谱相结合的方法组装产生了更少的scaffolds和更高的scaffold N50值。混合组装的方法产生了170个scaffolds,scaffold N50大小为33.5Mb,这个组装结果相比于最初的Illumina组装结果提升了57倍。另外,研究人员表示,phasing的平均片段大小为4.7Mb,phasing出约280万个SNV,占总比例97.2%。

与参考基因组相比,研究人员发现他们的组装结果比2011年发表的利用ALL-PATHS组装得到的基因组更加精准,与Pendleton等人发表的结果有95.2%相似。他们表示新的组装结果中展示了95.7%的外显子。

新方法的局限性

但是Kwok和他的同事表示,虽然这种方法能够对基因组组装起到提升作用,但是也存在一些局限性。

例如,他们提到10X测序需要制备高分子量的DNA,所以存档样品可能不能使用。除此之外,linked reads是由50kb~100kb的随机k-mer扩增产生的,但这些分子并不一定总是会扩增。因此,需要构建更多不同大小的测序文库减少这些N-base gaps,这样就增加了工作量。

他们还指出了一些可以改善的方面。他们认为通过构建更大的插入片段,10X测序数据可以用于延伸contig或者填补相邻contig间的gap。

相关文献:A hybrid approach for denovo human genome sequence assembly and phasing. Nature Methods (2016)doi:10.1038/nmeth.3865.

Assembly and diploidarchitecture of an individual human genome via single-molecule technologies. NatureMethods 12, 780–786 (2015) doi:10.1038/nmeth.3454.


文章转载自:http://seq.cn/portal.php?mod=view&aid=19968