查看: 13377|回复: 14

[动植物重测序] 重测序的深度与覆盖度之间的关系

  [复制链接]

钵水母

Rank: 3Rank: 3

主题
1
注册时间
2016.5.6
在线时间
10 小时

发表于 2016.5.6 16:29:46 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
请问重测序的深度与覆盖度之间的关系是怎么样的?有相关文献支持吗?
回复

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
49
注册时间
2015.12.5
在线时间
537 小时

活跃会员论坛元老


发表于 2016.5.7 02:35:31 | 显示全部楼层
测序深度(SequencingDepth)是指测序得到的碱基总量(bp)与基因组大小(Genome)的比值,或者理解为基因组中每个碱基被测序到的平均次数。
测序覆盖比例(Sequencing Coverage),指的是基因组上至少被检测到1次的区域,占整个基因组的比例。当然,有些文章中也会将测序深度称为Coverage,容易给我们带来混淆。因此,我们还是需要根据语境来推断Coverage的意思。
两者的关系,理论上符合泊松分布。这是是业内的共识了。我们假设基因组大小为G, 假定每次测序可从基因组任何位置上随机检测一个碱基。那么对于基因组上某一个固定碱基位置,在一次测序中,该位置被命中的概率为P (P=1/G)。我们将试验重复n次,相当于产生了n个碱基(n=c*G, c为测序深度)。碱基的深度分布,相当于求该位置被测到0次,1次,…,n次的概率各是多少? 位点被检测到的n次的概率符合泊松分布。当然,由于概率极低,检测次数很大,所以这样的泊松分布接近于正态分布。如下图,在某1个样本测序的项目中,基因组平均测序深度为60X。基因组大部分区域的测序深度在60X左右,但同时依然有一小部分区域的测序深度低于3X(极低覆盖或没有覆盖)。
当然,这是理想条件下。在实际情况下的覆盖度,会低于理想值。主要是由于GC含量偏好,基因组完整性,个体差异,重复序列影响等。

图.1
测序深度与基因组覆盖度之间是一个正相关的关系,而测序带来的错误率或变异检测(例如,SNP)假阳性结果会随着测序深度的提升而下降。在图2中可以看到当测序深度达到10x时基因组的覆盖度已接近饱和(上图)。但在测序深度达到10X的时候,SNP的检测率却没有达到饱和(下图)。这是由于当深度达到10X的时候,虽然基因组大部分区域已被覆盖,但在覆盖到的区域中,依然有相当多的区域深度小于3~4X。SNP检测的最低深度标准通常为3~4X。如果没有达到这个水准,则判断其不可靠,而在分析结果中不予接受。为了进一步减少低测序深度区域的比例,则需要进一步提高测序深度。只有测序深度达到30X的时候,SNP检测才会达到饱和。
图.2 覆盖和SNP检出率
因此,可以根据我们的研究目的来选择相应的测序深度,见表1。
(1)如果我们的研究目的仅仅是进行群体遗传分析等类型的分析。由于分析是通过计算基因组不同区域的多样性变化来推断进化选择压力,或构建进化树推断遗传分化关系,SNP检出率达到70~90%足以达到此类目的。所以,此类研究常见的测序深度选择在10X左右。
(2)如果想检测个体的全基因组突变,来寻找某个特定功能突变,则我们推荐大于30X的测序深度,以保证接近于“毫无疏漏”。
(3)如果测序样本是混样,例如,癌组织样本(癌细胞的细胞异质性很大),BSA分析中的群体混合池样本。那么在保证30X的测序深度的基础上,如果经费许可50X的测序深度更佳,以保证对混合池中低频变异的检测成功率(例如,新出现或即将消亡的癌细胞突变)。
表.1

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
新的一天加油!
回复 支持 1 反对 0

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
49
注册时间
2015.12.5
在线时间
537 小时

活跃会员论坛元老


发表于 2016.5.12 22:01:53 | 显示全部楼层
游泳的鱼 发表于 2016.5.12 18:04
大神能提供给我以上完美回答的图表的原文献链接嘛?http://www.omicshare.com/forum/static/image/smiley ...

还可以借鉴另一篇文献的统计数据,来自一篇nature文章 :

上图中可以看到,各类SNP的检出数量到30X的时候,才稳定下来。不过也有一个很有意思的地方,纯合的SNP在10X数据后略有下降。这是由于在低深度的时候,很多杂合SNP被判断为纯合SNP(两种等位基因只被测出了1个)。随着深度的提高,两种等位基因才被检测出来,才发现是原来检测到的部分纯合SNP其实是杂合SNP。所以体现为纯合的SNP数量略微下降。

这张图形也是类似的,统计的是基因芯片检测到基因型和测序结果的一致性。未检测或不一致的位点数量,到30X后就接近于稳定的。

所以,30X是重测序比较理想的深度。

参考文献:
Bentley D R, Balasubramanian S, Swerdlow H P, et al. Accurate whole human genome sequencing using reversible terminator chemistry[J]. nature, 2008, 456(7218): 53-59.


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
新的一天加油!
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2016.5.3
在线时间
5 小时

活跃会员突出贡献论坛元老


发表于 2016.5.9 18:11:23 | 显示全部楼层
大赞。
回复

使用道具 举报

超级版主

Rank: 12Rank: 12Rank: 12

主题
18
注册时间
2016.3.11
在线时间
172 小时

突出贡献优秀版主荣誉管理


发表于 2016.5.9 19:35:09 | 显示全部楼层
基迪奥-周煌凯 发表于 2016.5.7 02:35
测序深度(SequencingDepth)是指测序得到的碱基总量(bp)与基因组大小(Genome)的比值,或者理解为基因 ...

周老师怎么看low-depth sequencing方法在家系群体中的未来(比如做基因组选择啊什么的)
GBS会发展更好还是低深度全基因组测序呢?
哈哈
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
1
注册时间
2016.5.3
在线时间
9 小时

发表于 2016.5.11 09:33:15 | 显示全部楼层
yuzhe891 发表于 2016.5.9 19:35
周老师怎么看low-depth sequencing方法在家系群体中的未来(比如做基因组选择啊什么的)
GBS会发展更好还 ...

我觉得这篇文献可能对你有参考价值

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

评分

参与人数 1奥币 +10 收起 理由
小瑶 + 10 可以可以,交流共享,一起进步..

查看全部评分

回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
1
注册时间
2016.5.6
在线时间
10 小时

 楼主| 发表于 2016.5.12 18:04:59 | 显示全部楼层
基迪奥-周煌凯 发表于 2016.5.7 02:35
测序深度(SequencingDepth)是指测序得到的碱基总量(bp)与基因组大小(Genome)的比值,或者理解为基因 ...

大神能提供给我以上完美回答的图表的原文献链接嘛?http://www.omicshare.com/forum/static/image/smiley/qq/qq%20(3).gif
回复 支持 反对

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
49
注册时间
2015.12.5
在线时间
537 小时

活跃会员论坛元老


发表于 2016.5.12 21:17:38 | 显示全部楼层
游泳的鱼 发表于 2016.5.12 18:04
大神能提供给我以上完美回答的图表的原文献链接嘛?http://www.omicshare.com/forum/static/image/smiley ...

哪张图片?你的链接是空的。
新的一天加油!
回复 支持 反对

使用道具 举报

帝王蝶

Rank: 4

主题
7
注册时间
2016.4.7
在线时间
34 小时

发表于 2016.5.16 22:24:31 | 显示全部楼层
测序深度可以用samtool计算,那覆盖度呢?
回复 支持 反对

使用道具 举报

超级版主

Rank: 12Rank: 12Rank: 12

主题
18
注册时间
2016.3.11
在线时间
172 小时

突出贡献优秀版主荣誉管理


发表于 2016.5.17 15:21:39 | 显示全部楼层
雪纷飞712 发表于 2016.5.16 22:24
测序深度可以用samtool计算,那覆盖度呢?

既然你会samtools算深度,统计零深度的区域占全基因组比例就是覆盖度了
哈哈
回复 支持 反对

使用道具 举报

帝王蝶

Rank: 4

主题
2
注册时间
2016.4.10
在线时间
36 小时

发表于 2016.5.19 15:03:48 | 显示全部楼层
讲解清晰易懂
回复 支持 反对

使用道具 举报

草履虫

Rank: 2

主题
0
注册时间
2018.8.8
在线时间
2 小时

发表于 2018.8.8 13:36:59 | 显示全部楼层
yuzhe891 发表于 2016.5.17 15:21
既然你会samtools算深度,统计零深度的区域占全基因组比例就是覆盖度了

拼接不上的区域呢?
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
1
注册时间
2016.4.23
在线时间
7 小时

发表于 2019.3.9 12:49:16 | 显示全部楼层
基迪奥-周煌凯 发表于 2016.5.7 02:35
测序深度(SequencingDepth)是指测序得到的碱基总量(bp)与基因组大小(Genome)的比值,或者理解为基因 ...

请问 图2 和 图3 的出处或者参考文献是什么呢?
回复 支持 反对

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
49
注册时间
2015.12.5
在线时间
537 小时

活跃会员论坛元老


发表于 2019.3.13 10:13:11 | 显示全部楼层
sailor2016 发表于 2019.3.9 12:49
请问 图2 和 图3 的出处或者参考文献是什么呢?

这是以前华大基因的测试数据,在行业内广泛传播,没有参考文献。
新的一天加油!
回复 支持 反对

使用道具 举报

禁止发言

主题
32
注册时间
2017.11.22
在线时间
20 小时

灌水之王


发表于 2020.4.4 20:46:02 | 显示全部楼层
基迪奥-周煌凯 发表于 2016.5.12 14:01
还可以借鉴另一篇文献的统计数据,来自一篇nature文章 :

上图中可以看到,各类SNP的检出数量到30X的时候 ...

很有用
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表