测序深度(SequencingDepth)是指测序得到的 碱基总量(bp)与基因组大小(Genome)的比值,或者理解为基因组中每个碱基被测序到的平均次数。 测序覆盖比例(Sequencing Coverage),指的是基因组上至少被检测到1次的区域,占整个基因组的比例。当然,有些文章中也会将测序深度称为Coverage,容易给我们带来混淆。因此,我们还是需要根据语境来推断Coverage的意思。 两者的关系,理论上符合泊松分布。这是是业内的共识了。我们假设基因组大小为G, 假定每次测序可从基因组任何位置上随机检测一个碱基。那么对于基因组上某一个固定碱基位置,在一次测序中,该位置被命中的概率为P (P=1/G)。我们将试验重复n次,相当于产生了n个碱基(n=c*G, c为测序深度)。碱基的深度分布,相当于求该位置被测到0次,1次,…,n次的概率各是多少? 位点被检测到的n次的概率符合泊松分布。当然,由于概率极低,检测次数很大,所以这样的泊松分布接近于正态分布。如下图,在某1个样本测序的项目中,基因组平均测序深度为60X。基因组大部分区域的测序深度在60X左右,但同时依然有一小部分区域的测序深度低于3X(极低覆盖或没有覆盖)。 当然,这是理想条件下。在实际情况下的覆盖度,会低于理想值。主要是由于GC含量偏好,基因组完整性,个体差异,重复序列影响等。
图.1 测序深度与 基因组覆盖度之间是一个 正相关的关系,而测序带来的错误率或变异检测(例如,SNP)假阳性结果会随着测序深度的提升而下降。在图2中可以看到当测序深度达到10x时基因组的覆盖度已接近饱和(上图)。但在测序深度达到10X的时候,SNP的检测率却没有达到饱和(下图)。这是由于当深度达到10X的时候,虽然基因组大部分区域已被覆盖,但在覆盖到的区域中,依然有相当多的区域深度小于3~4X。SNP检测的最低深度标准通常为3~4X。如果没有达到这个水准,则判断其不可靠,而在分析结果中不予接受。为了进一步减少低测序深度区域的比例,则需要进一步提高测序深度。只有测序深度达到30X的时候,SNP检测才会达到饱和。 图.2 覆盖和SNP检出率 因此,可以根据我们的研究目的来选择相应的测序深度,见表1。 (1)如果我们的研究目的仅仅是进行群体遗传分析等类型的分析。由于分析是通过计算基因组不同区域的多样性变化来推断进化选择压力,或构建进化树推断遗传分化关系,SNP检出率达到70~90%足以达到此类目的。所以,此类研究常见的测序深度选择在10X左右。 (2)如果想检测个体的全基因组突变,来寻找某个特定功能突变,则我们推荐大于30X的测序深度,以保证接近于“毫无疏漏”。 (3)如果测序样本是混样,例如,癌组织样本(癌细胞的细胞异质性很大),BSA分析中的群体混合池样本。那么在保证30X的测序深度的基础上,如果经费许可50X的测序深度更佳,以保证对混合池中低频变异的检测成功率(例如,新出现或即将消亡的癌细胞突变)。 表.1 |