查看: 6017|回复: 34

第9期在线交流“全基因组关联分析(GWAS)技术交流”【视频】

  [复制链接]

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
422
奥币
7355
积分
6608
注册时间
2015.11.23
在线时间
952 小时

宣传达人优秀版主


发表于 2016.1.8 09:18:57 | 显示全部楼层 |阅读模式
第9期在线交流“全基因组关联分析(GWAS)技术交流”回顾


2015年12月3日,基迪奥在信息交流群(QQ群:67185986)举办了转录因子结合位点分析及靶基因预测交流会,交流的问答整理如下:


在线交流PPT在此下载:

杨小红老师的关联分析课件,里面包含Tassel使用方法的教程:

视频地址:http://www.omicshare.com/class/Home/Index/singlev?id=3


问1:已克隆基因与GWAS信号位于一个block内,但具有100Kb距离。有什么办法可以准确找到目的基因吗?
答:可以利用Haploview这个软件画一个局部LD关系图(如下图),证明这个基因和那个显著的SNP之间存在LD关系。


问2:亲缘关系对GWAS有什么影响?
答:主要是群体的非均一,比如你有100个个体,假如80个是随机的, 10个是同胞兄弟姐妹,另外10个半同胞的表兄弟姐妹。这种系谱关系(遗传背景),如果你不将其作为协变量进行矫正的话,就会被误认为SNP的效应,导致假阳性。所以如果将k矩阵(系谱关系矩阵)作为协变量导入,对假阳性控制是有帮助。


问3:家系群体能否做GWAS?这样的话,跟构图谱然后关联有什么区别?
答:关联分析和连锁分析用得都是一般线性模型,并没有太大区别,所以如果材料类似家系群体的话做GWAS也是可以得,应该说结果是类似的。


问4:家系群体做GWAS需要多少家系?
答:family based的GWAS文章,可以参考人类GWAS文章。实验设计的策略与paired t-test很像,可能会收集几百个家系来做GWAS。至少几十个。


问5:最优模型除了用QQplot去评价外还有其他评价标准吗?
答:最好的是QQplot 。


问6:过矫正,只和群体结构有关系么?怎么避免?
答:是否过校正,应该看实际情况来判断。大部分情况下,我们会尝试不同的模型,然后通过观察比较QQ-plot确定最佳的模型。例如,做关联分析的时候,用一般线性模型,Q矩正,K矩,Q+K模型都进行校正和尝试。如果Q+K的QQ-plot,发现观察的P value 低于期望P value,那说明潜在过校正了。可以考虑使用更少协变量的模型进行校正(一般线性模型,Q矩正,K矩)。所以,应该把所有模型都试一遍,确定一个最优模型。


问7:用RAD测序和WGS测序进行关联分析,需要的群体大小一样吗?
答:一样的。区别是标记数不一样。


问8:GWAS能关联多个性状,一般能关注多少个性状?
答:对于性状数量是没有限制。


问9:极值GWAS,优于一般GWAS结果(包含极值材料)吗
答:是的。最后显著性是会高于一般GWAS的。


问10:GWAS分析中没有找到显著关联位点,只有“suggestive”的位点,有用吗?
答:没有显著的结果有两个原因:1)位点效应太弱,而群体规模太小,不足以检测微小效应的位点。2)多重检验校正导致的假阴性。你可以按照两阶段法,阶段1降低阈值挑选候选显著的SNP,再在阶段2进行验证,也是有可能得到比较好的结果。






本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
有问题请发贴提问
回复

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
422
奥币
7355
积分
6608
注册时间
2015.11.23
在线时间
952 小时

宣传达人优秀版主


 楼主| 发表于 2016.1.8 09:19:42 | 显示全部楼层
问11:RAD测序分析GWAS效果如何?
答:测序本质上是一种基因分型的方法,所以rad测序做GWAS分析主要问题是标记覆盖度问题,RAD分析酶切位点大约为4K出现一次,如果群体里面的遗传多样性是千分之五。如果使用RAD测序的话,那么可能在20Kb左右才会出现一个SNP,理论上这样的密度进行GWAS分析整体也是OK的。 但是可能会遇到一个潜在问题:某个区域没有酶切位点 ,比如100Kb都没有酶切位点。那么这些没有标记覆盖的区间,可能会导致漏掉一些信息。另外对于那种LD衰减特别快的群体,比如自然群体中的玉米,LD衰减距离可能只有10-20K,那么RAD测序可能面临着标记密度不够,导致没有覆盖到与性状显著关联的QTL区间,最后结果结果不显著(分析的检测功效下降)。所以RAD测序做GWAS效果怎样还需要具体问题具体分析,还需要看材料LD衰减距离怎样。


问12:没有独立群体,两个阶段GWAS:我有300份材料,可以随机挑选/交叉选择5组数据GWAS,择一直位于阈值上的SNP位点吗?
答:不能这样设计。两阶段GWAS目的就是说,就像做实验,你的实验成功了,你需要一个独立实验来证明你那个是正确的。现在300份材料,选来选去材料都是不变的,这样一个设计并不是一个多阶段的设计。两阶段设计,指的材料是独立的,所以这样设计就不叫多阶段GWAS。


问13:GWAS的材料最少要多少份?
答:这个问题很难回答。因为GWAS是统计学结果,哪怕目前你只有50株材料,最后能得到一个显著位点的话,你的结论依然是有效的。所以GWAS不能叫多少份材料就有效。但一般而言,如果材料少于二三百株的话,可能做GWAS是不大合理的。因为如果是数量性状,材料再少很难得到一个比较显著的结果。


问14:Gapit包中CMLM模型和Tassel里面的MLM有何优缺点?
答:所有混合线性模型的基本理念都是一样的,就是将性状的模型控制因为分为随机效应与固定效应。所以结果总体上是一致的。只是不同的软件对这个方程式的解法不同。Gapit 包和Tassel的算法完全相同,都是Buckler实验室出的软件,不过据说Gapit优化了软件,所以计算速度更快。


问15:如果将某种性状的类极端个体重测序,这种实验设计可以GWAS吗?是400个个体,200个极低,200个极高。
答:可以做,可以用case vs control的分析策略 ,建议使用plink的逻辑回归模型。


问16:一般的基于芯片的GWAS,为什么得到的是一个大的区间呢?如1q.23。
答:原因不在于芯片。因为目前人类的SNP芯片,密度已经达到百万级别,这意味着平均每隔3kb会有一个SNP标记。GWAS的分析精度,决定是由群体LD衰减距离来决定的。当群体LD衰减距离特别大,比如500kb,最后我们会看到500kb的marker都是显著的。所以这个结果的原因不在于芯片,主要是因为你的材料决定的。


问17:对于LD值小的物种,是否要增加SNP的密度?
答:是的,否则可能漏掉一些关联位点。


问18:现在划候选区间都是靠LD,这个LD是全基因组的平均LD吧?为什么不直接用局部LD来划区间呢?
答:全基因组的LD是比较粗略的平均水平的估计(全基因组的均值)。局部LD比较合理。但因为一开始我们并不知道显著区间,所以只能从全局评价材料的LD衰减距离。在找到关联位点后,再做局部LD分布图.

问19:估算LD 一般要多少SNP多少样本?
答:有二三十个样本已经足够的,建议用所有标记。


问20:候选区间的LD decay高于全基因组的LD decay?
答:局部LD衰减的速率可能高于全基因组也可能低于全基因组,具体情况具体分析。
有问题请发贴提问
回复 支持 反对

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
422
奥币
7355
积分
6608
注册时间
2015.11.23
在线时间
952 小时

宣传达人优秀版主


 楼主| 发表于 2016.1.8 09:22:13 | 显示全部楼层
问21:全基因组的LD如何计算?
答:推荐haploview。软件会按照参数设置,计算一定距离内(例如5Mb)的SNP间的LD值。然后我们可以统计不同距离水平的SNP间的LD均值。


问22:能否用SV或CNV做GWAS?如何理解这种“基因型”?
答:可以。把SV的有(1)和无(0),拷贝数的数量作为基因型即可。


问23:如果是NGS的SNP分型数据,可以用STRUCTURE做群体遗传结构吗?如果不能,应该用什么来做?
答:可以。做候选基因关联分析的时候,则需要额外设计一些随机背景标记计算群体结构。有的文献也用PCA结果作为协变量校正群体结构(Q矩阵),比如PPT中的案例,


问24:分析SNP分型,做SNP分型与转移的关系,我的结果与别人相反,有一个基因型是可以导致转移风险高,而别人的结果是转移风险低。可信吗?
答:是完全有可能的。标记和功能突变的连锁状态在不同的群体中并不相同。SNP本身没有任何意义,关键的是在你的材料中,与SNP连锁的功能突变是什么。


问25:做GWAS没有结果,RIL家系连锁分析有QTL位点,这样的结果怎么解释?
答:这个完全可以解释,有很多可能。例如,这两个亲本中,有一个亲本拥有一个稀有突变,于是在这个分离位点产生了一个QTL。在自然群体里面,由于这个亲本的突变是非常稀有的,在1%的频率以下,利用GWAS可能检测不出来。


问26:在做structure的时候,用全部的SNP做好,还是随机抽样5000SNP做好一些?
答:实际上你看structure软件说明,structure分析的时候最好是用非连锁标记,所以用全基因组用structure标记是有问题的。所以,应该随机抽样部分标记进行分析才是正确的。另外structure运算过程非常慢,如果用全部SNP分析需要算非常长时间。


问27:SV或CNV做GWAS跟用SNP做GWAS软件都一样??
答:可以,但是目前做基因型定位最准的是SNP,前两者准确性会差一点。如果用SV 或CNV做GWAS分析软件是一样的。


问28:压缩模型与不压缩模型 也是需要做了 选择比较优的么?
答:可以看下tassel软件说明,是否选择压缩以及压缩的参数,软件会自动优化选择。


问29:是遗传图谱定位性状好用,还是GWAS呢?
答:很难笼统回答。需要根据实验要求与目的来设计最佳。


问30:RIL群体检测到的QTL,在自然群体中该位点连锁的标记与表型不能关联。这样的Qtl可靠吗?
答:可靠。只是说自然群体里面QTL的频率太低了检测不到。建议把QTL多验证几遍,比如不同环境下,不同年份重复验。


问31:通过100X的重测序检测比对出来的SNP准确性高么?
答:做关联分析不需要这么深。
有问题请发贴提问
回复 支持 反对

使用道具 举报

草履虫

Rank: 2

主题
0
奥币
378
积分
22
注册时间
2016.3.16
在线时间
2 小时

发表于 2016.3.16 17:52:31 | 显示全部楼层

谢谢 非常有帮助
回复 支持 反对

使用道具 举报

草履虫

Rank: 2

主题
0
奥币
444
积分
12
注册时间
2015.12.29
在线时间
10 小时

发表于 2016.3.29 21:23:01 | 显示全部楼层
最近在用TASSEL窗口版的时候,用MLM模型分析完网站提供的数据后却没有结果生成的?GLM模型就有结果。大家有木有这个问题哇
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
奥币
397
积分
57
注册时间
2016.5.5
在线时间
7 小时

发表于 2016.5.13 21:46:04 | 显示全部楼层
慢慢看
回复

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
422
奥币
7355
积分
6608
注册时间
2015.11.23
在线时间
952 小时

宣传达人优秀版主


 楼主| 发表于 2016.5.15 21:40:31 | 显示全部楼层

哈哈,可以先收藏
有问题请发贴提问
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
奥币
504
积分
109
注册时间
2016.6.4
在线时间
20 小时

发表于 2016.6.5 18:54:21 | 显示全部楼层
看完,受用了!谢谢楼主!
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
奥币
548
积分
129
注册时间
2016.6.6
在线时间
25 小时

发表于 2016.6.7 13:33:44 | 显示全部楼层
谢谢分享
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
2
奥币
507
积分
95
注册时间
2016.6.15
在线时间
13 小时

发表于 2016.6.15 20:30:21 | 显示全部楼层
感谢
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
奥币
645
积分
123
注册时间
2016.5.6
在线时间
83 小时

发表于 2016.6.21 11:42:06 | 显示全部楼层
我竟然从头到尾看完了
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
奥币
645
积分
123
注册时间
2016.5.6
在线时间
83 小时

发表于 2016.6.21 11:49:41 | 显示全部楼层
Yang xiaohong 老师关于GWAS软件的操作,我没在附件里面看到呢,请问在哪呢?

点评

在1楼,我刚刚更新附件了。  发表于 2016.6.21 14:24
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
奥币
645
积分
123
注册时间
2016.5.6
在线时间
83 小时

发表于 2016.6.21 15:21:59 | 显示全部楼层
liyongbo 发表于 2016.6.21 11:49
Yang xiaohong 老师关于GWAS软件的操作,我没在附件里面看到呢,请问在哪呢?

谢谢周老师
回复 支持 反对

使用道具 举报

帝王蝶

Rank: 4

主题
27
奥币
1250
积分
284
注册时间
2016.5.24
在线时间
136 小时

发表于 2016.6.27 17:43:11 | 显示全部楼层
需要慢慢学习
回复 支持 反对

使用道具 举报

帝王蝶

Rank: 4

主题
1
奥币
627
积分
266
注册时间
2016.7.20
在线时间
52 小时

发表于 2016.9.9 22:22:00 | 显示全部楼层
一定要好好看看
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
奥币
1032
积分
82
注册时间
2016.8.10
在线时间
38 小时

发表于 2016.9.20 14:18:42 | 显示全部楼层
谢谢分享
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
奥币
786
积分
107
注册时间
2016.10.20
在线时间
57 小时

发表于 2016.10.24 17:13:08 | 显示全部楼层
感谢分享,赞一个!
回复 支持 反对

使用道具 举报

帝王蝶

Rank: 4

主题
0
奥币
428
积分
208
注册时间
2016.9.15
在线时间
38 小时

发表于 2016.10.26 11:38:48 | 显示全部楼层
回复

使用道具 举报

帝王蝶

Rank: 4

主题
4
奥币
848
积分
396
注册时间
2016.7.15
在线时间
36 小时

发表于 2016.10.26 14:27:57 | 显示全部楼层
太棒了顶!d=====( ̄▽ ̄*)b
回复 支持 反对

使用道具 举报

帝王蝶

Rank: 4

主题
0
奥币
428
积分
208
注册时间
2016.9.15
在线时间
38 小时

发表于 2016.10.27 10:34:33 | 显示全部楼层
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表