查看: 3196|回复: 7

[动植物重测序] 全基因组关联分析项目设计——标记对表型的解释率

[复制链接]
  • TA的每日心情

    2020.6.3 17:02
  • 签到天数: 28 天

    连续签到: 1 天

    [LV.4]偶尔看看III

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    153
    奥币
    1465
    积分
    1328
    注册时间
    2019.7.8
    在线时间
    243 小时

    发表于 2020.3.9 10:11:03 | 显示全部楼层 |阅读模式
    在上一篇文章中,周老师深入浅出地为大家阐明了GWAS分析材料选择的原则和方法。本期文章中,周老师将借用公式为大家讲解标记效应对表型方差的解释率

    在数量性状的GWAS研究里,我们经常会看到一句话:phenotypic variance explained(以下简称PVE)by this QTL is 5%,翻译过来就是这个QTL解释了表型方差的5%。这个数值在很多数量性状(例如,身高、产量)的GWAS结果中都有输出,通常在表头中用R2来表示。


    这个指标是什么意思呢?其实就是一个简单的与方差相关的一个指标。现在我来解释一下这个指标是什么意思,以及怎么算的。

    图1 范例表型以及绘图(excel画的生图,丑了点,凑合看吧)

    如图1,就是一个展示的范例数据。某个群体1个SNP位点与表型间的关系。图1a表格中有群体中各个个体的基因型(AA、AC、CC)和表型的信息。对应的基因型,又被转化为了数值(0,1,2)。这样便于用加性效应模型进行线性回归的计算。


    AC(基因型值1),相当于比AA(基因型值0)多了1份C的效应,CC(基因型值2),相当于比AA(基因型值0)多了2份C的效应。如果用一个散点图和回归线来展示这个表格的结果,就是类似图1b的效果。你可以注意到,哪怕相同基因型的个体,表型也不是完全相同的。那是因为存在随机误差。


    这是1个数量性状,因此我们就可以将这个SNP位点和表型间开展关联分析。关联分析的模型有很多选择,我们下文会再展开介绍。比如,这里我们可以选择线性回归分析。那么模型的公式就是:


    Y=a+bX +e   


    备注:这是单个位点的关联分析模型。如果给全基因组所有位点都分别分析一次,那就是全基因组关联分析了。所以全基因组关联分析可以理解为很多次的单位点分析。


    其中:Y是表型,X是基因型,b是基因型的效应值,bX就构成了每个个体的基因型效应值(就是你的基因型让你变高或者变低)。a是截距,可以理解为个体表型扣除基因型效应后的本底值。e是随机误差,包含扣除这个位点效应之外的背景基因型效应(其他位置QTL的效应)、环境的效应、检测误差等。如果我们要证明Y与X相关,本质上就是要证明这个模型中b≠0。


    那么,在这个模型中有三个部分的方差,且对应的关系公式是:


    Var(Y)=Var(bX)+Var(e)


    其中:Var(Y)是这个群体表型的总体方差,Var(bX)是这个SNP位点遗传效应的方差,Var(e)随机误差的方差。如果对应到图1b,Var(Y)代表整个群体个体间平均差异度的平方,Var(bX)就是不同基因型个体间(按照基因型对个体分组,然后进行组间比较)平均差异度的平方,Var(e)就是相同基因型(组内)个体间的平均差异度的平方。


    那么,这个SNP位点的解释总体方差的百分比PVE=Var(bX)/Var(Y)。从这个公式来看,也可以解读为这个SNP位点的遗传力。


    那么,这个PVE如何计算呢?用excel就可以完成。如果你使用excel2016,选择“文件”-“选项”,然后选择“加载项”中的“分析工具库”。然后继续在总菜单栏里的“数据”-“数据分析”,选择“回归”,就可以进行归回分析的统计了。具体这个操作,也可以自行百度。

    图2 回归分析excel操作过程截图1

    图3 回归分析excel操作过程截图2

    图4 回归分析excel操作过程截图3

    完成回归分析后的效果图如下。SNP效应的总体方差约为55.6,表型总体方差约为68.6,那么基因型效应对表型总体方差的解释率就是两者相除,约为73.7%。这个数据也可以用excel的方差分析完成,不过结果数值与回归分析有细微的差异,具体原因我还没有详细研究过。不过,差别细微地可以忽略不计。

    图5 回归分析excel分析结果

    以上分析过程也可以用R语言实现,可以参考omicshare的帖子:
    《如何用R计算自变量(X)对因变量(Y)的方差解释率》

    那么,我们已经初步理解了PVE的概念和计算方法。我们再多看一个公式,理解影响PVE的因素。如果在一个QTL位点有3种基因型,AA、AC、CC。A等位在群体中的频率为p,C等位在群体中的频率为qp+q=1。假设这个QTL位点的加性效应为a(其中a=(uAA-uCC)/2,其中uAA、uCC分别为群体中AA基因型或CC基因型个体的表型均值),显性效应为d。那么QTL位点的遗传效应方差σ2(g)= 加性效应方差σ2(a)+显性效应方差σ2(d)

    那么这个位点的加性效应方差σ2(a) = 2p(1-p)[a+(1-2p)d]2

    GWAS研究中,我们一般使用加性效应模型,不考虑显性效应。所以,假设显性效应不存在,即d=0,σ2(d)=0。那么进一步可以得到:

    位点的遗传方差σ2(g)= σ2(a)= 2a2p(1-p)  #此为最终公式。

    一个位点的遗传效应方差σ2(g)如果越大,这个位点对整体表型方差的解释率越高。所以,我们关注1个QTL在GWAS研究中效应的大小,本质就是决定于这个QTL的σ2(g)大小。从这个最终公式来看,σ2(g) 决定于两个因素:

    (1)QTL的绝对效应大小a。因为a=(uAA-uCC)/2,所以a越大,两种基因型的个体差异越大。

    (2)QTL两种等位基因在群体的分布频率。我们可以看公式中“p(1-p)”的这部分,你可以注意到,当p=0.5的时候,p(1-p)数值达到最大(等于0.25)。当p越接近1或接近0的时候,这个部分数值都会变小。也就是说,当这个QTL位点两种等位基因型接近相等的时候,QTL的遗传方差可以达到最大。

    如果某个等位频率太低,都会大大降低这个位点的遗传方差。这就解释了,GWAS研究中,为什么低频/稀有的QTL很难检测(例如,群体中稀有的抗病基因;与人类复杂疾病相关的稀有突变)。因为频率降低,则意味着QTL遗传方差的降低,从而降低了统计学上的效应,变得更加难以检测。

    需要补充的一点是,在实际研究中我们本质上不是计算真实的QTL对表型的解释率(PEVQTL),而是计算与QTL连锁的标记(假设我们用的是SNP标记)对表型的解释率(PEVSNP)。


    由于SNP标记与QTL往往不是完全连锁(r2=1),所以PEVSNP≤PEVQTL。两者的关系是 PEVSNP≈r2 PEVQTL。比如,当SNP与QTL的r2值=0.1的时候,PEVSNP仅仅为PEVQTL的1/10,那么这个SNP检测到的关联信号已经非常微弱了。所以,GWAS分析必须保证有足够的标记密度,保证潜在的QTL一定有足够近的SNP与之强连锁。

    图6 QTL和与之存在连锁关系的关联标记

    霍金说过,一本书多一个公式少一半读者。但这篇文章里,不知不觉又多了好多公式。不过这些需要量化的理论,没有公式的支持还真不好解释。希望这些公式能给我们专业的读者带来更精确的概念解析。


    本文作者:基迪奥-周老师

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    新的一天加油!
    回复

    使用道具 举报

  • TA的每日心情
    yes!
    昨天 15:13
  • 签到天数: 365 天

    连续签到: 3 天

    [LV.9]以坛为家II

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    1336
    积分
    180
    注册时间
    2016.8.30
    在线时间
    121 小时

    发表于 2020.3.9 14:49:25 | 显示全部楼层
    学习了,收藏
    啦啦啦
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2020.6.18 16:50
  • 签到天数: 43 天

    连续签到: 1 天

    [LV.5]常住居民I

    中华鲟

    Rank: 5Rank: 5

    主题
    0
    奥币
    491
    积分
    717
    注册时间
    2020.1.16
    在线时间
    19 小时

    发表于 2020.3.10 08:14:30 | 显示全部楼层
    周四
    回复

    使用道具 举报

  • TA的每日心情

    2020.6.18 16:50
  • 签到天数: 43 天

    连续签到: 1 天

    [LV.5]常住居民I

    中华鲟

    Rank: 5Rank: 5

    主题
    0
    奥币
    491
    积分
    717
    注册时间
    2020.1.16
    在线时间
    19 小时

    发表于 2020.3.11 12:27:25 | 显示全部楼层
    周四
    回复

    使用道具 举报

  • TA的每日心情

    2020.6.18 16:50
  • 签到天数: 43 天

    连续签到: 1 天

    [LV.5]常住居民I

    中华鲟

    Rank: 5Rank: 5

    主题
    0
    奥币
    491
    积分
    717
    注册时间
    2020.1.16
    在线时间
    19 小时

    发表于 2020.3.11 12:38:29 | 显示全部楼层
    学习
    回复

    使用道具 举报

  • TA的每日心情

    2020.4.7 10:57
  • 签到天数: 1 天

    连续签到: 1 天

    [LV.1]初来乍到

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    1
    积分
    11
    注册时间
    2018.8.17
    在线时间
    3 小时

    发表于 2020.4.7 11:04:26 | 显示全部楼层
    收藏
    回复

    使用道具 举报

  • TA的每日心情

    2020.7.1 15:32
  • 签到天数: 79 天

    连续签到: 2 天

    [LV.6]常住居民II

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    251
    积分
    143
    注册时间
    2018.12.26
    在线时间
    29 小时

    发表于 2020.6.1 18:47:24 | 显示全部楼层
    非常感谢
    为有牺牲多壮志,敢教日月换新天
    回复

    使用道具 举报

    该用户从未签到

    草履虫

    Rank: 2

    主题
    0
    奥币
    27
    积分
    8
    注册时间
    2018.7.26
    在线时间
    4 小时

    发表于 2020.6.13 00:59:53 | 显示全部楼层
    这个真的太有用了
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表