随着越来越多测序数据的出现,林林种种的二代测序数据标准化的方法着实使得不少生信工作者们头疼。

这些方法不仅在所采用的偏差矫正的类型和数据分析策略上有很大不同,而且也很难对哪一种标准化的方法比较合适以及对下游分析造成的影响进行回答。

但这些方法都是要回答一个问题:测序数据最大的不同来源于库的大小不同(例如,测序深度的差异),如何去除这一差异就成了标准化的核心问题。

样本间标准化的最简单的方法就是找到一个能反映库大小的能够代表本次测序特有的因子,从而通过这个因子实现对原始数据read的标准化。

这里,小编通过搜集和阅读文献,总结了7种常见的标准化方法,它们分别是:

1Total count,TC

2. Upper Quartile, UQ

3. Median, Med

4. DESeq:前提假设大多数基因不是差异表达的基因,该方法可使用DESeq Bioconductor package。

5. Trimmed Mean of M-values(TMM): 前提假设大多数基因不是差异表达的基因,该方法可使用edgeR Bioconductor package。

6. Quantile (Q):可使用Bioconductor包limma的normalizaQuantiles()功能。

7. Reads Per Kilobase Per Million mapped reads (RPKM),可使用cufflinks。

所有这些方法又可根据其原理而分为两类,第一类基于库的大小(TMM,DESeq),第二类基于read数目的分布(TC,UQ,Med,Q,RPKM)。

第一类中的TMM,DESeq的前提假设都是大多数基因的表达是没有差异的,然后,基于这个假设根据均值,或者中值,比例等提出一个标准化的因子进行标准化。

但是对于TMM这种方法,比例的计算是根据每次测序的数据和参考数据进行比较;而DESeq却是考虑了所有的样本。

第二类标准化的方法的前提则是read数目的分布应该具有相似性,或者是单四分位数(TC,Med,UQ,RPKM),或者是全部的四分位数(Q)。

以下是小鼠M.musculus miRNA测序在三个条件下(重复次数:{3,2,2})分别用这七种方法得到的结果。

QQ截图20160712105310

看了这么多,相信读者们一定开始有点云里雾里了吧~小编有个土方法,那就是在不同样本之间比较同一基因时,倾向于计算RPKM;而不同基因之间进行比较时,则倾向于使用DESeq。

对RNAseq标准化感兴趣的读者们可阅读以下资料加深对这方面的了解,可点击如下链接:

http://bioconductor.org/packages/release/bioc/html/DESeq.html

http://cole-trapnell-lab.github.io/cufflinks/

http://www.bioconductor.org/packages/release/bioc/html/edgeR.html

http://www.bioconductor.org/packages/release/bioc/html/limma.html

http://bib.oxfordjournals.org/content/14/6/671.short

 


文章转载自:http://mp.weixin.qq.com/s?__biz=MzAwNjE0MDY3MQ==&mid=2650694150&idx=1&sn=50569da6513a7de1d073898cdc27f72e&scene=1&srcid=0711lzkF7ZhvoUYC6FNP5Upb#wechat_redirect