高通量测序技术也称其为下一代测序技术,能同时一次对几十万到几百万条DNA分子进行序列测定,同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序。

高通量测序平台可以产生样本中大量的遗传变异数据,但是去了解清楚小的区段或者位点的功能上重要的变异仍然是一个挑战。为了满足这些需求,annovar工具就应运而生,annovar工具可以注释单核苷酸变异(single nucleotide variants,SNVs)和插入/缺失(indel),例如研究它们对基因的功能影响,推断染色体带,报告功能重要性得分,找到保守区中的变异,或鉴定千人基因组计划和dbSNP中报道的变异等等。

annovar是一个由perl语言编写的命令行工具,能在安装了perl解释器的多种操作系统上执行。允许多种输入文件格式,包括大家通常使用的VCF文件格式。同时输出文件也有多种格式,包括注释过的VCF文件、用tab或者逗号分隔的text文件。annovar能快速注释遗传变异并预测其功能。一般其他常用的variants注释软件还有 VEP, snpEff, VAAST, AnnTools等等。

下面我们就annovar工具对过滤后的VCF文件的注释过程做一个总结,也希望大家有新的意见或者建议可以积极与我们进行交流。

(1)数据库准备:

下载相应的注释文件:/data2/disk1/humandbannovar/,一般为annovar安装目录下的humandb目录。

下载数据库文件地址:http://www.openbioinformatics.org/annovar/download/hg19_ALL.sites.2010_11.txt.gz

也可以通过以下命令实现:./annotate_variation.pl -downdb -buildver hg19 -webfrom annovar refGene humandb/

(2)转换数据格式:

过滤后vcf文件(sample_filter.vcf)换为annovar指定的格式命令:convert2annovar.pl -format vcf4 sample_filter.vcf >smaple_annovar.input

(3)注释:

通常使用table_annovar.pl进行注释,可以一次性完成位点、基因、区域的注释工作。

1)table_annovar.pl详细指令:/home/cuckoo/software/annovar/table_annovar.pl sample_annover.input /data2/disk1/humandbannovar/ -buildver hg19 -out sample -remove -protocol refGene,cytoBand,1000g2014oct_all,snp138 -operation g,r,f,f -nastring NA

2)table_annovar.pl参数说明:

输入文件:sample_annover.input

数据库位置:/data2/disk1/humandbannovar/,一般为annovar安装目录下的humandb目录。

-buildver:指定物种基因组的类型,hg19

-out:指定输出文件的前缀,sample;默认为txt格式。

-remove:指定删除所有的临时文件。

-protocol:指定参考文件的数据库来源,用逗号隔开;refGene,cytoBand,1000g2014oct_all,snp138四个必须包括。

-operation:指定与-protocol所对应的参考文件的类型,用逗号隔开。

-nastring:指定结果文件中的缺失值表示为NA

注释完之后的表头部分说明:

Chr: 染色体号

Start: 起始位置

End: 结束位置

Ref: 参考序列碱基

Alt: 替代碱基

Func.refGene: 突变类型

Gene.refGene: 基因名字

GeneDetail.refGene: 基因详细信息

ExonicFunc.refGene: 外显子功能变异的详细信息

AAChange.refGene: 氨基酸变化信息

1000g2015aug_eas: 东亚人在千人基因中替代碱基的频率

SIFT_score: 基于序列同源性和替代氨基酸之间物理化学相似性来预测变化影响蛋白质功能的工具,SIFT分数<0.05代表预测有害。

Polyphen2_HDIV_score: 孟德尔遗传疾病诊断中区分突变影响程度的工具,Polyphen2_HDIV_score得分在0.909到1之间代表有危害,得分在0.447和0.908之间代表可能有危害,得分在0和0.446之间是良性的。

PROVEAN_score : 预测氨基酸替代或indel是否对蛋白生物功能有影响,小于-2.5认为有害.

供稿:苏州协云基因科技有限公司        Bingo