查看: 3283|回复: 18

[动植物重测序] low coverage sequencing 怎么做到的impute准确性?

[复制链接]
  • TA的每日心情

    2018.3.9 10:16
  • 签到天数: 96 天

    连续签到: 1 天

    [LV.6]常住居民II

    超级版主

    Rank: 12Rank: 12Rank: 12

    主题
    18
    奥币
    2192
    积分
    1300
    注册时间
    2016.3.11
    在线时间
    164 小时

    突出贡献优秀版主荣誉管理


    发表于 2016.6.16 20:02:02 | 显示全部楼层 |阅读模式
    10奥币
    想问个问题,文献里有句话:In the case of maize, based on sampling from a Poisson distribution with a lambda value of 0.6 (the average coverage for maize GBS data), we expect only 12% of the genome to be sampled two or more times, providing an upper limit for correct heterozygous single nucleotide polymorphism (SNP) calls.

    就是说,玉米里做GBS的平均测序深度很低,每个个体每个位点的平均深度不能保证杂合子纯合子的判型,然后大规模的群体做数据填充就OK了。我不太理解的就是,如果说impute之前的参考数据都不准确,是怎么保证的填充后的准确性的?
    还有就是,missing rate这个概念,对impute的影响大么?

    最佳答案

    查看完整内容

    的确对杂合位点判定不准。而且对低深度的GBS来说,是无法解决的。这段话就是承认这个局限; 但这个局限大部分情况下,对玉米影响不大。因为一般情况下,玉米研究的都是自交系,近似纯合,杂合位点很少。杂合位点导致的错误是可以被容忍的。 Imputation本身就分为两步:(1)建立单体型集;(2)利用建立的单体型集,补充目标群体的缺失数据。第二步的本质,就是利用LD补充缺失数据。就是使用观察到的SNP,补充邻近的缺失位点。但 ...
    回复

    使用道具 举报

  • TA的每日心情
    忙~
    2019.1.23 23:11
  • 签到天数: 104 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    46
    奥币
    6213
    积分
    4943
    注册时间
    2015.12.5
    在线时间
    511 小时

    活跃会员论坛元老


    发表于 2016.6.16 20:02:03 | 显示全部楼层
    的确对杂合位点判定不准。而且对低深度的GBS来说,是无法解决的。这段话就是承认这个局限;
    但这个局限大部分情况下,对玉米影响不大。因为一般情况下,玉米研究的都是自交系,近似纯合,杂合位点很少。杂合位点导致的错误是可以被容忍的。

    Imputation本身就分为两步:(1)建立单体型集;(2)利用建立的单体型集,补充目标群体的缺失数据。第二步的本质,就是利用LD补充缺失数据。就是使用观察到的SNP,补充邻近的缺失位点。但如果missing rate太高,连续的区域都缺失(甚至大过 LD decay的范围),那么inputation就是无能为力的。
    回复

    使用道具 举报

  • TA的每日心情

    2018.1.14 20:44
  • 签到天数: 8 天

    连续签到: 1 天

    [LV.3]偶尔看看II

    钵水母

    Rank: 3Rank: 3

    主题
    4
    奥币
    622
    积分
    127
    注册时间
    2016.5.29
    在线时间
    37 小时

    发表于 2016.6.16 21:30:52 来自手机 | 显示全部楼层
    可以这样理解,测序深度越大保证每个位点是准确的,若测序深度低那么错误的概率就增大,可以通过加大样品数目是该位点的可靠信增大,举个例子,有个位点是A,测100个个体,其中98个个体该位点都是A,那么非A
    回复

    使用道具 举报

  • TA的每日心情

    2018.1.14 20:44
  • 签到天数: 8 天

    连续签到: 1 天

    [LV.3]偶尔看看II

    钵水母

    Rank: 3Rank: 3

    主题
    4
    奥币
    622
    积分
    127
    注册时间
    2016.5.29
    在线时间
    37 小时

    发表于 2016.6.16 21:31:25 来自手机 | 显示全部楼层
    的概率就很低了。大概就是这个意思
    回复

    使用道具 举报

  • TA的每日心情

    2018.3.9 10:16
  • 签到天数: 96 天

    连续签到: 1 天

    [LV.6]常住居民II

    超级版主

    Rank: 12Rank: 12Rank: 12

    主题
    18
    奥币
    2192
    积分
    1300
    注册时间
    2016.3.11
    在线时间
    164 小时

    突出贡献优秀版主荣誉管理


     楼主| 发表于 2016.6.17 05:22:21 来自手机 | 显示全部楼层
    kuangwm 发表于 2016.6.16 21:31
    的概率就很低了。大概就是这个意思

    那要是测了100个个体,50个A,50个T,这100个体这个位点难道都被判型为杂合子么?这里有问题吧?
    回复

    使用道具 举报

  • TA的每日心情

    2018.1.14 20:44
  • 签到天数: 8 天

    连续签到: 1 天

    [LV.3]偶尔看看II

    钵水母

    Rank: 3Rank: 3

    主题
    4
    奥币
    622
    积分
    127
    注册时间
    2016.5.29
    在线时间
    37 小时

    发表于 2016.6.17 13:25:54 | 显示全部楼层
    毕竟测错的概率还是小的,100个个体,可以理解为测100X,测100个个体,A,G平均各占一半,那该位点是杂合位点了,若98%是A,G则被考虑测错的
    回复

    使用道具 举报

  • TA的每日心情

    2018.3.9 10:16
  • 签到天数: 96 天

    连续签到: 1 天

    [LV.6]常住居民II

    超级版主

    Rank: 12Rank: 12Rank: 12

    主题
    18
    奥币
    2192
    积分
    1300
    注册时间
    2016.3.11
    在线时间
    164 小时

    突出贡献优秀版主荣誉管理


     楼主| 发表于 2016.6.17 15:49:37 来自手机 | 显示全部楼层
    kuangwm 发表于 2016.6.17 13:25
    毕竟测错的概率还是小的,100个个体,可以理解为测100X,测100个个体,A,G平均各占一半,那该位点是杂合位 ...

    位点是杂合不错,可是测得的100个体是50个AA纯合50个GG纯合个体,还是100个AG杂合个体,还能判断么
    回复

    使用道具 举报

  • TA的每日心情

    2019.3.19 20:50
  • 签到天数: 266 天

    连续签到: 1 天

    [LV.8]以坛为家I

    中华鲟

    Rank: 5Rank: 5

    主题
    21
    奥币
    2234
    积分
    820
    注册时间
    2016.4.7
    在线时间
    266 小时

    发表于 2016.6.23 20:29:04 | 显示全部楼层
    好像错过了讨论,今天刚刚发帖问genotype imputation。如果我的材料平均深度都不高,也就是我没有可以用来作为参考的材料,那么我再做imputation的时候,结果会有什么影响?另外,我是用的beagle v4.1做的,为什么我第一次用第一条染色体做和我第二次用第一条和第二条一起做的时候,算出来的第一条染色体的部分位点存在差异?
    回复

    使用道具 举报

  • TA的每日心情
    忙~
    2019.1.23 23:11
  • 签到天数: 104 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    46
    奥币
    6213
    积分
    4943
    注册时间
    2015.12.5
    在线时间
    511 小时

    活跃会员论坛元老


    发表于 2016.6.23 21:57:45 | 显示全部楼层
    怒火凤凰 发表于 2016.6.23 20:29
    好像错过了讨论,今天刚刚发帖问genotype imputation。如果我的材料平均深度都不高,也就是我没有可以用来 ...

    你的材料是什么?
    回复

    使用道具 举报

  • TA的每日心情

    2019.3.19 20:50
  • 签到天数: 266 天

    连续签到: 1 天

    [LV.8]以坛为家I

    中华鲟

    Rank: 5Rank: 5

    主题
    21
    奥币
    2234
    积分
    820
    注册时间
    2016.4.7
    在线时间
    266 小时

    发表于 2016.6.24 09:13:29 | 显示全部楼层

    材料是油菜,用的是重测序的数据。另外昨晚刚看到一篇NC上的文献是这样用的:先进行第一次的imputation,然后把第一次imputation的结果作为第二次imputation的参考样本,不知道周老师怎么看?
    回复

    使用道具 举报

  • TA的每日心情
    忙~
    2019.1.23 23:11
  • 签到天数: 104 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    46
    奥币
    6213
    积分
    4943
    注册时间
    2015.12.5
    在线时间
    511 小时

    活跃会员论坛元老


    发表于 2016.6.29 01:03:52 | 显示全部楼层
    怒火凤凰 发表于 2016.6.24 09:13
    材料是油菜,用的是重测序的数据。另外昨晚刚看到一篇NC上的文献是这样用的:先进行第一次的imputation, ...

    最近又看了一些imputation的文献。我感觉两次imputation的逻辑上没有问题。但问题是第一次imputation以什么作为reference? 还是这个群体自身吗?如果是群体自身的imputation,就应该就不是使用reference的的方法,而是使用使用均值补缺,或KNN聚类后使用亚群的均值补缺。这样两步的imputation,可能会提高错误率。

    你可以把那篇NC文章贴出来看看。
    回复

    使用道具 举报

  • TA的每日心情

    2019.3.19 20:50
  • 签到天数: 266 天

    连续签到: 1 天

    [LV.8]以坛为家I

    中华鲟

    Rank: 5Rank: 5

    主题
    21
    奥币
    2234
    积分
    820
    注册时间
    2016.4.7
    在线时间
    266 小时

    发表于 2016.6.29 08:47:30 | 显示全部楼层
    基迪奥-周煌凯 发表于 2016.6.29 01:03
    最近又看了一些imputation的文献。我感觉两次imputation的逻辑上没有问题。但问题是第一次imputation以什 ...

    问了下作者,两次imputation是为了填补杂合的位点。他们的测序深度很低,只有2X。第一次是群体自身的imputation。文章是Genomic analysis of hybrid rice varieties reveals numerous superior alleles that contribute to heterosis. 文章中关于两次imputation的原文是:The data was converted into the BEAGLE (version 3.3.2) input file to impute the genotype. After the first round of the data imputation, the outputs were used as the reference panel to carry out the second round of data imputation. After the phasing iteration, the resulting genotype data set was used in the followed analyses.
    回复

    使用道具 举报

  • TA的每日心情

    2019.3.19 20:50
  • 签到天数: 266 天

    连续签到: 1 天

    [LV.8]以坛为家I

    中华鲟

    Rank: 5Rank: 5

    主题
    21
    奥币
    2234
    积分
    820
    注册时间
    2016.4.7
    在线时间
    266 小时

    发表于 2016.6.29 17:51:08 | 显示全部楼层
    基迪奥-周煌凯 发表于 2016.6.29 01:03
    最近又看了一些imputation的文献。我感觉两次imputation的逻辑上没有问题。但问题是第一次imputation以什 ...

    我还想问周老师一个问题,杂合位点做imputation会有什么影响?是需要把杂合位点先替换成缺失的,然后删除缺失率大于一定比例的位点再进行imputation?还是说不管杂合位点,直接删除缺失大于一定比例的位点,然后进行imputation?我试了第一种,在vcf文件里直接把杂合的0/1替换为缺失的./.(其他多位点已经删了),然后删除缺失多的,结果做imputation的时候出错了,有什么方法可以把vcf文件里的杂合位点替换为缺失么?
    回复

    使用道具 举报

  • TA的每日心情
    忙~
    2019.1.23 23:11
  • 签到天数: 104 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    46
    奥币
    6213
    积分
    4943
    注册时间
    2015.12.5
    在线时间
    511 小时

    活跃会员论坛元老


    发表于 2016.6.29 18:37:54 | 显示全部楼层
    怒火凤凰 发表于 2016.6.29 17:51
    我还想问周老师一个问题,杂合位点做imputation会有什么影响?是需要把杂合位点先替换成缺失的,然后删除 ...

    beagle v4.1进行genotype imputation的问题
    http://www.omicshare.com/forum/thread-1045-1-12.html
    (出处: OmicShare Forum)

    你的另外1个主题帖,在这里一起讨论了。

    我今天刚刚试了beagle的用法。beagle 的imputation 好像需要个reference群体。如同,NC那篇文章说的,如果群体以自己为reference 进行imputation ,该如何操作? ref=自己?
    回复

    使用道具 举报

  • TA的每日心情

    2019.3.19 20:50
  • 签到天数: 266 天

    连续签到: 1 天

    [LV.8]以坛为家I

    中华鲟

    Rank: 5Rank: 5

    主题
    21
    奥币
    2234
    积分
    820
    注册时间
    2016.4.7
    在线时间
    266 小时

    发表于 2016.6.30 10:07:00 | 显示全部楼层
    基迪奥-周煌凯 发表于 2016.6.29 18:37
    beagle v4.1进行genotype imputation的问题
    http://www.omicshare.com/forum/thread-1045-1-12.html
    (出 ...

    群体以自己为reference,是以第一次imputation之后作为第二次的reference。据我理解,第一次没有reference,直接做的imputation,只用gt那个参数
    回复

    使用道具 举报

  • TA的每日心情
    忙~
    2019.1.23 23:11
  • 签到天数: 104 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    46
    奥币
    6213
    积分
    4943
    注册时间
    2015.12.5
    在线时间
    511 小时

    活跃会员论坛元老


    发表于 2016.6.30 10:25:12 | 显示全部楼层
    怒火凤凰 发表于 2016.6.29 17:51
    我还想问周老师一个问题,杂合位点做imputation会有什么影响?是需要把杂合位点先替换成缺失的,然后删除 ...

    应该是缺失数据 .|.的定义有问题,软件不识别。 你先 试试 beagle 3.3 版本,对缺失数据可以自定义。
    回复

    使用道具 举报

  • TA的每日心情

    2019.3.19 20:50
  • 签到天数: 266 天

    连续签到: 1 天

    [LV.8]以坛为家I

    中华鲟

    Rank: 5Rank: 5

    主题
    21
    奥币
    2234
    积分
    820
    注册时间
    2016.4.7
    在线时间
    266 小时

    发表于 2016.6.30 10:51:42 | 显示全部楼层
    基迪奥-周煌凯 发表于 2016.6.30 10:25
    应该是缺失数据 .|.的定义有问题,软件不识别。 你先 试试 beagle 3.3 版本,对缺失数据可以自定义。 ...

    缺失的基因型为./.,在替换杂合的为缺失之前,是可以正常计算的,但是替换之后就出错了。还没找到原因
    回复

    使用道具 举报

  • TA的每日心情

    2016.10.17 15:18
  • 签到天数: 4 天

    连续签到: 1 天

    [LV.2]偶尔看看I

    钵水母

    Rank: 3Rank: 3

    主题
    2
    奥币
    531
    积分
    84
    注册时间
    2016.6.13
    在线时间
    46 小时

    发表于 2016.7.3 14:42:36 | 显示全部楼层
    这篇文章建议看看,怎么估计人low coverage resequencing的imput问题

    Nature. 2015 July 30; 523(7562): 588–591. doi:10.1038/nature14659.
    Sparse whole genome sequencing identifies two loci for major
    depressive disorder

    free
    回复

    使用道具 举报

  • TA的每日心情
    忙~
    2019.1.23 23:11
  • 签到天数: 104 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    46
    奥币
    6213
    积分
    4943
    注册时间
    2015.12.5
    在线时间
    511 小时

    活跃会员论坛元老


    发表于 2016.7.6 02:31:15 | 显示全部楼层
    怒火凤凰 发表于 2016.6.30 10:51
    缺失的基因型为./.,在替换杂合的为缺失之前,是可以正常计算的,但是替换之后就出错了。还没找到原因 ...

    你或许可以试试 低版本(V3)的, 高版本(V4)版感觉不大稳定。
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表