查看: 5423|回复: 12

[动植物重测序] 整合GWAS和WGCNA分析挖掘数量性状的微效作用位点

  [复制链接]
  • TA的每日心情

    2017.11.10 13:58
  • 签到天数: 353 天

    连续签到: 2 天

    [LV.8]以坛为家I

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    422
    奥币
    7535
    积分
    6612
    注册时间
    2015.11.23
    在线时间
    952 小时

    宣传达人优秀版主


    发表于 2016.11.30 14:48:17 | 显示全部楼层 |阅读模式
    全基因组关联分析(GWAS)已经是应用非常普遍的功能基因筛查方法了。长期以来,GWAS分析面临的最大的问题之一就是对微效多基因控制的数量性状或复杂性状检测能力不足。

    这主要是由于对于微效多基因控制的性状,任意单一基因对性状的贡献度都非常小,单一基因与性状的相关性将比较弱,在GWAS分析中经历多重检验校正后往往达不到显著水平。换句话说,并非基因组上没有与性状关联的位点,而是这些位点效应太弱了,它们显著性淹没在背景噪音中,而难以被准确挖掘出来。

    这种现象在遗传学研究中被称为遗传性缺失(missing heritability),即一个性状难以在DNA水平得到足够的解释。如图1的曼哈顿图就是一个范例。所有SNP位点的显著性都低于多重检验校正后的P value阈值(黑虚线,约为10E-6)。那么我们将面临1个进退维谷的境地:

    1.如果我们继续使用常规的多重检验校正后的P value阈值,将1个显著位点都没有。
    2.如果我们使用未校正的原始P value阈值(图1红虚线,等于0.05),虽然可以挖掘到不少名义上显著的位点(nominally significant loci),但这样的结果中包含大量假阳性。


    图1 GWAS分析中常规的多重检验P value阈值和未校正的阈值


    应对这种问题,研究人员常用的应对措施包括:
    1.优化表型鉴定的准确性;
    2.扩大样本量,提高检验功效(对微效位点的敏感度);
    3.采用多阶段法(常见两阶段法)研究微效位点。即,在第一阶段使用较低的阈值获得获选候选位点,然后再使用另一组独立样本对候选位点进行验证;
    4.代谢通路/功能类型水平(pathway/function based)的关联分析。

    所谓代谢通路/功能类型水平的关联分析,其基本逻辑如图2。图中蓝线代表基因组,红色区域代表与某个性状相关的微效基因(仅仅对表型有0.1%的贡献率)。因为这些基因属于相关的通路或功能,所以它们微弱的效应能够在某个功能/通路上产生协同累加效应,最终表现出个体表型的多样性。如果我们以单个基因作为单位进行关联分析的话,单个基因的显著性往往很低,难以有效检测。但如果以整个代谢通路/功能类型作为单位进行关联以及富集分析,则更容易检测到这些基因的联合效应。

    由于以上1~3的策略,需要通过提高检测的成本来达到提高检测功效。而策略4则是通过充分整合基因组中的各类信息,达到类似的效果,从而降低了成本。因此近年来,代谢通路/功能类型水平的关联分析尤为受到关注。


    图2 微效基因的累积效应


    但依赖于已知信息的代谢通路/功能类型水平 关联分析也有其不足,主要体现在:
    1.目前没有统一的方法,不同软件/方法得到的结果不同;
    2.只能对已知的通路/功能类型进行分析。

    尤其是第二点,对于研究基础较少的性状/疾病或非模式生物影响很大。因为其对应相关的通路信息非常有限,相关基因的相互作用关系未知,影响了代谢通路/功能类型水平关联分析的使用。

    基于以上的不足,我们推荐使用GWAS + WGCNA(权重基因共表达网络分析)联合分析的策略,将两种分析技术的优势互补,提高对微效位点的检测能力。基本的逻辑就是:

    1.使用GWAS策略挖掘低显著性的“名义”显著关联基因(nominally significant GWAS geneset, 下文简称NSGG)。
    2.使用WGCNA策略对NSGG进行调控关系分析,从中进一步深度挖掘与性状相关的通路以及核心基因。

    下面就给大家解读一篇整合使用GWAS和WGCNA策略挖掘影响骨密度的微效位点的文章。或许你正为自己的GWAS研究找不到显著位点而烦恼,这篇文章或许可以给你启发。

    文献解读

    这是一篇G3杂志的文章,这个杂志的影响因子虽然不高,但经常会有一些很有创新性的文章,这篇偏方法学的文章也是如此。文章题目是:Systems-level analysis of genome-wide association data[1]

    研究背景与目的

    全基因组关联分析(GWAS)被证明是一种有效定位大效应功能位点的方法,但大部分疾病仅仅由大量效应微弱的位点控制,GWAS对其挖掘的能力则十分有限。例如,在骨密度的关联分析中,宏关联分析32000个样本发现了56个与骨密度(BMD)关联的位点。但这些位点仅仅解释5.8%的骨质疏松表型效应。在本研究中,作者结合GWAS分析和WGCNA网络分析,分析了那些在普通GWAS分析中被忽略的基因,并证明其中部分基因在骨密度调控中可能起着重要的作用。

    实验材料

    第一阶段关联分析的数据来源从de CODE数据库下载了5861个冰岛人的基因型数据,共301019个SNP位点。这些个体样本检测了两个性状,分别是臀部骨密度(HBMD)和脊椎骨密度(SBMD)。

    WGCNA的数据来源26个中国女性的表达谱芯片数据,样本取自个体的循环单核细胞。其中包含12个低骨密度和14个高骨密度个体。

    第二阶段关联分析验证的数据来源另外一份骨质疏松症研究数据,包含1141个样本100000 SNPs位点的数据。

    文章总体思路


    图3 文章总体研究思路


    文章整体分析思路如图3,各个部分的分析结果如下。

    1.对名义显著的关联基因进行功能富集分析

    对3083个“名义”显著的关联基因(NSGG)进行富集分析检测到24个显著富集的term,显著性最高的为protein binding,其它包括developmental process, cation binding, cell differentiation等。但这些功能富集分析并没有明显地指向某个特定的基因。

    2.WGCNA分析以及模块的富集分析

    对3083个NSGG进行过滤筛选除去低丰度基因后,有1918个基因(占NSGG的62%)用于WGCNA分析,共产生13个模块,然后进行功能富集分析。分析的基本过程分为三个步骤。先根据不同基因表达模式的相似性,对基因构建系统关系树(图4A)。基于基因系统关系树,进一步将NSGG划分为不同的模块(图4B),并对各个模块中的基因进行GO、kegg功能富集分析(图4C)。


    图4 共表达模块划分以及功能富集分析


    共有5个模块富集到1个以上的term。尤其turquoise(蓝绿色)这个模块,富集到了多个使用所有NSGG无法富集到的term。 这说明通过WGCNA对基因进行分类,可以有效从NSGG分离出有真实与性状相关的基因,提高功能富集的检测功效。


    表1 存在显著富集的GO term的5个模块


    作者尤其关注了turquoise模块中氧化磷酸化这个在NSGG没有富集到的KEGG pathway。在这个模块的356个基因中,有16个基因属于氧化磷酸化pathway。其中3个基因在这个模块中连通性排名前三。有15个基因在这个模块中连通性排名前20%,这15个基因的表达量同时也与骨密度这个性状负相关。

    总结以上信息,我们可以推测氧化磷酸化相关的基因与骨密度相关,线索包括: 氧化磷酸化基因普遍是hub基因;氧化磷酸化基因普遍表达量与骨密度负相关。

    3.turquoise 模块中的发现与BMD相关的亚模块


    对turquoise模块中TOM≥0.15(注:TOM是评价两个基因共表达程度高低的一个指标,类似相关系数)的共表达关系以及相关基因构建共表达模块,发现两个亚模块。两个亚模块的枢纽是基因COX5B(图7-1红圈)。进一步发现与骨密度强负相关性的基因集中于其中1个子模块(图7-1方框)。该子模块中的8个基因分别在小鼠破骨细胞和成骨细胞中表达。结合这些信息可以推断这些子模块的基因极有可能和骨密度相关的。这些信息在常规的GWAS分析中并没有被发现,只有通过基因表达调控网络分析才可以被挖掘。


    图5 turquoise模块内的调控网络,基因的颜色越深代表其表达量与性状相关性越强


    4.利用已知基因挖掘未知的新基因

    TNF基因是一个核心基因(其连通性在整个网络中排名13,blue模块中排名第六),同时它也是一个已知的与骨密度相关的基因。作者以TNF为中心,过滤筛选TOM≥0.15的调控关系以及相关基因构建局部调控网络。整个局部网络共99个基因。通过GO富集分析,发现这个亚模块有三个term显著富集, 分布是nuclear proteins,gene expression,regulation of transcription。其中,还有多个基因已知在骨代谢中发挥着作用。这些信息也验证了TNF在骨代谢中是个核心gene。而这个局部网络也可以用于挖掘其它(未知功能)基因在骨代谢中的作用。


    图6 核心基因TNF相关的局部调控网络  5计算模块和性状的相关性


    通过模块与性状的相关性分析,共发现3个模块与性状显著相关,分别是magenta,greenyellow,brown。作者推测这些模块的核心基因与骨密度在生物学上相关,那么这些基因在接下来的二阶段关联分析验证试验中应该会有更高的验证率。为了验证这个假设,作者下载了另外一份骨密度研究的GWAS数据。作者比较了3份基因集在前后两次GWAS结果中的重复率(第一阶段GWAS显著的基因中,在第二阶段GWAS依然显著的基因的比例),这三份基因集分别为:

    1.以上三个与性状相关模块的hub基因;
    2.整个共表达模块中,表达量与性状相关性(基因显著性值)排名靠前的基因;
    3.NSGG中,GWAS的P vales最显著的基因;

    在验证试验中,作者按照top5%,top10%,top20%为标准分别提取以上3个基因集。然后分别以p value在两个阶段的GWAS分析中均小于等于0.05,0.01,0.001为标准验证GWAS的重复性。验证结果如下表:


    表2 3个基因集的重复性验证结果


    从表中我们可以发现,在任意1个标准下,连通性最高(K.in)的基因集的验证率都最高。因此在微效多基因性状的分析中,面对GWAS分析得到的大量不可靠的“名义”显著的基因,如果能够使用WGCNA策略对这些“名义”显著基因进行预筛选,那么将可以提高二阶段关联分析验证的验证率。

    小结

    微效位点的挖掘,一直是GWAS分析中的难点。其最大的困难在于在挖掘微效位点的同时,有效过滤假阳性。在这篇文章介绍的分析策略中,WGCNA网络分析作为对GWAS的一个补充,相当于对GWAS分析得到候选基因提供了一个分拣机。根据功能相近基因往往共表达的原则,WGCNA分析会对GWAS得到的候选基因进行分类。因此,真实与性状相关的关联基因往往被聚类在同一模块中。在这样的模块中开展基因挖掘,更可能得到有生物学意义的结论。


    图7 WGCNA能够对GWAS分析结果中的信息进行分类


    另外,WGCNA分析还能够提供与性状相关的模块、基因间的潜在调控关系、提供核心调控基因列表,这些信息都是GWAS分析所欠缺的。因此,整合GWAS和WGCNA分析,不但可以提高对微效基因的挖掘效率,而且也大大加快了解释、利用GWAS结果的速度。

    参考文献:

    【1】Farber C R. Systems-level analysis of genome-wide association data[J]. G3: Genes| Genomes| Genetics, 2013, 3(1): 119-129.





    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    有问题请发贴提问
    回复

    使用道具 举报

  • TA的每日心情
    yes!
    2019.11.7 16:21
  • 签到天数: 610 天

    连续签到: 1 天

    [LV.9]以坛为家II

    版主

    Rank: 10Rank: 10Rank: 10

    主题
    52
    奥币
    5991
    积分
    1271
    注册时间
    2016.1.8
    在线时间
    274 小时

    突出贡献优秀版主论坛元老


    发表于 2016.11.30 15:05:02 | 显示全部楼层
    太棒了,
    回复

    使用道具 举报

  • TA的每日心情
    yes!
    2019.11.28 10:12
  • 签到天数: 674 天

    连续签到: 1 天

    [LV.9]以坛为家II

    迅猛龙

    Rank: 8Rank: 8

    主题
    0
    奥币
    2526
    积分
    1130
    注册时间
    2016.1.15
    在线时间
    257 小时

    活跃会员


    发表于 2016.12.1 08:49:58 | 显示全部楼层
    学习,学习!
    回复

    使用道具 举报

  • TA的每日心情

    2017.7.25 10:23
  • 签到天数: 18 天

    连续签到: 1 天

    [LV.4]偶尔看看III

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    515
    积分
    46
    注册时间
    2016.6.8
    在线时间
    9 小时

    发表于 2016.12.1 09:54:54 | 显示全部楼层
    学习学习
    回复

    使用道具 举报

  • TA的每日心情

    2017.7.25 09:57
  • 签到天数: 151 天

    连续签到: 1 天

    [LV.7]常住居民III

    帝王蝶

    Rank: 4

    主题
    4
    奥币
    662
    积分
    229
    注册时间
    2016.5.11
    在线时间
    68 小时

    发表于 2016.12.1 16:43:52 | 显示全部楼层
    mark一下,以后学习
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    no
    2018.12.21 18:14
  • 签到天数: 38 天

    连续签到: 1 天

    [LV.5]常住居民I

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    503
    积分
    71
    注册时间
    2016.1.11
    在线时间
    23 小时

    发表于 2016.12.7 20:05:40 | 显示全部楼层
    maker, 学习一下
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2017.9.19 20:59
  • 签到天数: 6 天

    连续签到: 1 天

    [LV.2]偶尔看看I

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    511
    积分
    23
    注册时间
    2016.4.25
    在线时间
    21 小时

    发表于 2017.3.24 23:41:20 | 显示全部楼层
    基于生物学通路和基因的GWAS:单位点GWAS分析一般只列出符合P阈值标准的显著SNPs以及邻近的基因,有可能会错失一些效应较小或虽然效应较大,但由于样本量所限等因素不能被检测到的风险SNPs;作为这种最显著SNPs/Genes策略的一种有益补充,采用基于生物学通路和基因的GWAS分析。
    请问楼主,在其他网页看到上面这段话,请问这个基于基因的GWAS分析指的就是WGCNA么???
    基于生物学通路的GWAS分析又是什么??
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    吃饭
    2019.1.5 14:40
  • 签到天数: 306 天

    连续签到: 1 天

    [LV.8]以坛为家I

    帝王蝶

    Rank: 4

    主题
    0
    奥币
    784
    积分
    281
    注册时间
    2017.5.15
    在线时间
    71 小时

    发表于 2017.5.16 00:37:09 来自手机 | 显示全部楼层
    样品量大是王道
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    吃饭
    2018.6.28 22:28
  • 签到天数: 33 天

    连续签到: 1 天

    [LV.5]常住居民I

    钵水母

    Rank: 3Rank: 3

    主题
    4
    奥币
    687
    积分
    171
    注册时间
    2016.4.27
    在线时间
    28 小时

    发表于 2017.10.30 11:36:13 | 显示全部楼层
    学习学习
    回复

    使用道具 举报

  • TA的每日心情
    忙~
    前天 08:22
  • 签到天数: 187 天

    连续签到: 1 天

    [LV.7]常住居民III

    帝王蝶

    Rank: 4

    主题
    3
    奥币
    190
    积分
    239
    注册时间
    2017.2.6
    在线时间
    126 小时

    发表于 2018.5.11 17:23:30 | 显示全部楼层
    请问,如果模块基因做富集分析,得到所有go term,可不可以直接挑选与开花相关的go term?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2019.1.21 09:47
  • 签到天数: 51 天

    连续签到: 1 天

    [LV.5]常住居民I

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    124
    积分
    109
    注册时间
    2016.9.23
    在线时间
    34 小时

    发表于 2018.6.8 16:30:34 | 显示全部楼层
    感谢分享!
    回复

    使用道具 举报

  • TA的每日心情
    yes!
    2019.6.17 22:53
  • 签到天数: 3 天

    连续签到: 1 天

    [LV.2]偶尔看看I

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    317
    积分
    56
    注册时间
    2016.11.14
    在线时间
    15 小时

    发表于 2019.6.17 22:52:46 | 显示全部楼层
    涨姿势呀,确实是一篇经典联合分析。但有一事不明,文中开头说了,GWAS对于微效多基因控制的数量性状或复杂性状检测能力不足。但前一篇说过与连锁分析相比:连锁不平衡的检出力高于家系连锁分析;连锁不平衡相对于连锁分析更易找到微效基因; 请问是不是相互矛盾啊,或者有其他分析方式对于数量性状检测效力高?具体结果是什么?另外如果家系分析的标记密度足够高,是否可用GWAS进行QTL定位?@基迪奥
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    吃饭
    2020.1.7 08:08
  • 签到天数: 383 天

    连续签到: 3 天

    [LV.9]以坛为家II

    帝王蝶

    Rank: 4

    主题
    0
    奥币
    2070
    积分
    343
    注册时间
    2016.4.27
    在线时间
    141 小时

    发表于 2019.6.27 11:31:34 | 显示全部楼层
    maker,学习下
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表