查看: 505|回复: 1

[动植物重测序] 学员来稿|全基因组关联分析(GWAS)学习笔记分享(三)

[复制链接]
  • TA的每日心情

    前天 10:03
  • 签到天数: 79 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    199
    奥币
    790
    积分
    3213
    注册时间
    2018.4.19
    在线时间
    557 小时

    推广达人宣传达人活跃会员


    发表于 2019.1.10 09:35:14 | 显示全部楼层 |阅读模式
                                                                                                       
    群体结构

    我们上一节讲到了如何处理vcf文件,那我们这节课给大家讲一下,如何运用处理好的vcf文件进行群体结构计算。

    首先给大家讲一下为什么要做群体结构呢,举一个简单的例子,黄种人的头发是黑的,白种人的头发是非黑的,你拿这个性状在这俩人种里关联,所有一个人种内特异的SNP都会起来峰,那这个峰还很好看,那这个峰是不是你想要的呢? 答案是NO,因为这是群体结构造成的影响。具体的原理我们这里不过多的陈述,如果想了解原理,可以看这里的群体结构与亲缘关系原理这一章节,里面有很详尽的讲解http://www.omicshare.com/class/home/index/series?id=41 我们这期主要是讲重测序数据的GWAS分析,那重测序数据的SNP数目少则几十万,多则几百万上千万,传统的的计算群体结构的软件是structure,计算速度十分感人,如果您的项目是几百个品种,上百万甚至上千万个SNP,可能计算到您毕业都不一定都算完,这里给大家推荐一个算法和structure一样的,计算速度更快的软件,那就是今年来引用率更高的admixture。



    运用admixture需要准备的文件,为处理好的vcf文件,我们建议您用admixture进行群体结构分析的时候,能将LD近的标记过滤掉,只保留这个,这样会提升您的运算速度,Admixture的美中不足的是不接受vcf文件,你需要将vcf文件转换为admixture所接受的bed格式,这里推荐大家用plink软件进行转换。 ##按照LD过滤并转换为bed格式plink--vcf snp.int0.8.maf0.05.vcf --indep-pairwise 100 50 0.2 --outsnp.int0.8.maf0.05 --allow-extra-chr --make-bed ##转换为admixture可以接受的格式plink--bfile snp.int0.8.maf0.05 --extract snp.int0.8.maf0.05.prune.in --out prunData--recode 12 --allow-extra-chr生成的文件就可以做admixture啦。 ##做K=2时候的admixtureadmixture--cv prunData.ped 2 >> log.txt 运行结束后会生成响应的Q文件:



    这个Q文件,稍加修改就可以进行GWAS分析了,当然您也可以用已经做出来的结果,绘制发表级别的图片(如下图)。



    以上部分就是admixture的全部讲解了,当然我们建议您能充分解群体结构原理,会用admixture结果绘制发表级的图片,一个高分的文章,图片一定是精美的。

    亲缘关系

    上面给大家讲了如何用admixture去计算群体结构,在做GWAS分析的时候,只矫正群体结构是不够的,亲缘关系也会回GWAS结果造成一定的假阳性。这一节为大家讲一下如何计算kinship。 先给大家介绍几款计算亲缘关系的软件:目前常用的几款软件有GCTA、LDAK、SPAGeDi、TASSEL。

    首先SPAGeDi是一款引用率非常高的软件,在那个还是用芯片做GWAS的时代,它还是可以胜任亲缘关系计算这项工作的,但是由于测序技术的不断提高,做GWAS的标记量越来越高,渐渐就形成了日益增长的需求和落后的计算能力之间的矛盾。举个例子,如果你有几百万标记,几百个样本,这款软件会浪费你的青春。 那我们用什么如做大标记量的亲缘关系计算呢,GCTA、LDAK、TASSEL适合你,今天我们给您讲解一下如何用TASSEL去计算kinship。 提问,用TASSEL计算kinship需要几步。答案:4步 第一步,您要在您的服务器上安装一个TASSEL,Windows界面版的不能够胜任这一项工作,具体的方法可以参考我们第一期。 第二步,准备好您的vcf文件,当然我们默认您的vcf文件是处理好的那样。



    第三步,给vcf文件排序,排成tassel认可的序列,如果您不排序,运行任何命令都会报错,毕竟人家软件牛,还是有点脾气的哈。 命令格式:run_pipeline.pl -Xmx1536m-Xms512m -SortGenotypeFilePlugin -inputFile 你的vcf文件 -outputFile 输出vcf文件的名字 -fileType VCF run_pipeline.pl-Xmx1536m -Xms512m -SortGenotypeFilePlugin -inputFile lecture06_genotype.vcf-outputFile lecture06cp -fileType VCF 我们ls -t看一下:



    生成了个重新排序tassel可以接受的vcf文件。 第四步,开始振奋人心的亲缘关系分析,同样也是一条命令:run_pipeline.pl-Xmx1536m -Xms512m -importGuess lecture06cp.vcf -KinshipPlugin -methodCentered_IBS -endPlugin -export tassel_kinship.txt -exportType SqrMatrix 我们再ls -t看一下:



    就生成了你所需要的文件啦:



    这个文件就可以直接拿去做GWAS分析了。 当然,我们今天只讲了用tassel去算kinship,如果您想用别的方法比如GCTA、LDAK、SPAGeDi去计算,没关系,基迪奥的GWAS课程有详细的讲解,从原理到方法再到技术,你想要的这里都有,同时也会教你,如何用您算出来的亲缘关系文件去绘制发表级别的图片。






    教程链接:http://www.omicshare.com/class/。  当然,大家也可在手机端基迪奥公众号底部菜单栏 视频教程 观看。


    今天的内容就到这里啦~


    本文作者:可乐加冰啊

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    回复

    使用道具 举报

  • TA的每日心情
    忙~
    3 小时前
  • 签到天数: 105 天

    连续签到: 5 天

    [LV.6]常住居民II

    帝王蝶

    Rank: 4

    主题
    6
    奥币
    446
    积分
    230
    注册时间
    2018.1.3
    在线时间
    77 小时

    发表于 2019.1.10 10:01:23 | 显示全部楼层
    给你一个赞
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表