查看: 18165|回复: 101

【主题帖】OS Tools-GO富集分析工具的使用与解读详细教程

  [复制链接]
  • TA的每日心情

    2016.10.21 09:23
  • 签到天数: 87 天

    连续签到: 1 天

    [LV.6]常住居民II

    版主

    Rank: 10Rank: 10Rank: 10

    主题
    17
    奥币
    3052
    积分
    1136
    注册时间
    2015.12.7
    在线时间
    141 小时

    优秀版主


    发表于 2016.5.25 17:15:59 | 显示全部楼层 |阅读模式
    本帖最后由 基迪奥小师妹 于 2016.6.24 18:00 编辑

    我们的云平台上的GO富集分析工具,需要输入的文件表格和参数很简单,但很多同学都不明白其中的原理与结果解读,这个帖子就跟大家详细解释~

    一、GO富集介绍:
           Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology(本体),分别描述基因的分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)。GO的基本单位是term(词条、节点),每个term都对应一个属性。

    富集的含义:
           每个基因都会对应有一个或多个GO term(也就是GO功能)。
           富集涉及到两个概念:前景基因和背景基因。前景基因就是你关注的要重点研究的基因集,背景基因就是所有的基因集。比如做两个样本对照组和处理组的转录组测序,前景基因就是对照组vs处理组的差异基因,背景基因就是这两组样本的所有表达基因。再比如,我想知道与整个广东省相比,深圳市的大学生是不是显著更多(“大学生”就相当于深圳市民的其中一个GO term)。那么前景就是深圳市的人口,背景就是广东省的人口,每个个体都会有一个标签(如大学生、中学生、小学生等)。
           富集的意思就是,某个GO term在所关注的前景基因集中占的比例要显著高于在所有背景基因集中所占的比例。比如上面的例子,深圳市大学生显著富集,意思就是深圳市本科毕业的人口所占深圳市总人口的比例显著高于广东省本科毕业人口在广东省总人口中所占的比例。例如下图,我们要计算的就是10%与2%相比是否有显著性。


           那么,这个“显著性”是如何计算的呢?就是我们众所周知的P value。P value是利用超几何检验计算出来的,具体公式如下:


           其中,N为所有Unigene中具有GO注释的基因数目;n为N中差异表达基因的数目;M为所有Unigene中注释为某特定GO term的基因数目;m为注释为某特定GO term的差异表达基因数目。
           计算得到的P value会进一步经过多重检验校正,得到corrected-pvalue(也就是Q value)。通常我们会以Q value≤0.05为阈值,满足此条件的GO term定义为在差异表达基因中显著富集的GO term。




    二、数据准备:
           明白了GO富集的原理后,我们需要准备的数据就只有两份:前景基因文件和背景基因文件。
           富集目的基因文件(前景基因文件):就是你要富集分析的基因集。在上面的例子中,就是对照组vs处理组的差异表达基因。格式为每行一个基因ID,文本文件(制表符分隔)(*.txt)。


           GO背景基因文件:就是所有的基因集,在上面的例子中,就是对照组和处理组所有的表达基因。1)如果你研究的物种是有参考基因组的模式物种,那么可以直接使用数据库上已有的参考基因作为背景基因文件。目前提供的物种有水稻、拟南芥、小鼠、大鼠、斑马鱼、鸡、秀丽线虫、果蝇、人。ID类型可选择基因ID或转录本ID,根据富集目的基因的ID类型决定。如果不清楚自己的文件是什么ID,可以点击“预览参考文件”来查看具体ID。后面的“版本”是最新的Ensemble版本号。


    2)如果你研究的物种不在这些选择范围内,那么就要自己准备GO背景基因文件了。
    因为一个基因可有多个GO term,所以文件格式有两种:一种为第一列为基因ID,第二列为所对应的GO term,如下表:


    另一种为第一列是基因ID,第二列之后为同一个基因的所有GO号,这种格式也是我们基迪奥的转录组denovo流程出来的结果格式,如下表:



    上传这两种格式中的任何一种都是可以的~  要记住,前景基因文件里的基因ID必须包含在背景基因文件里面!

    如何得到基因的GO注释?
          有一些同学不知道如何获得背景基因的GO号。通常,如果你的数据是从公司测序得到的,那么测序报告里都会有。如果你是自己捣腾的数据,那么,如果是无参考基因组的物种,就需要根据unigene的Nr注释,用Blast2go软件得到unigene的GO注释信息。具体Blast2go的使用,可参考我们第二期在线交流课堂:http://www.omicshare.com/forum/thread-176-1-1.html。如果是有参考基因组的物种,可以在GO 官网上下载GO注释信息,也可以在Biomart上下载物种的GO注释信息,我们也有相应的教程:http://www.omicshare.com/forum/thread-437-1-1.html

    上传完这两个文件后,点击“提交”就OK了。等着收菜~~


    三、结果解读:       这次我试运行的数据为荔枝趋势分析文章里的趋势分析结果数据,我以profile1包含的基因为前景基因集,所有趋势包含的基因为背景基因集,做GO富集分析。

    1. GO二级分类图(out.secLevel.png/svg)

           这个图显示了profile1的基因在各个GO term的数目和富集情况。横坐标代表GO三个 ontology的更细一级分类,即二级分类;纵坐标代表每个分类条目所包含的基因数目。由于一个基因常常对应多个GO term,因此同一个基因会在不同分类条目下出现,即被多次统计,因此如果你把这里所有柱子的基因数目加起来,肯定是多于profiel1总的基因数目的。


    2. GO富集结果表(out.[PFC].html )      三个Ontology(C, F, P)会分别展示。以生物过程(biological process)为例子,如下表:


           第一列为GO term的ID,点击GO ID,可显示这个GO term包含的所有基因:


    再点击这个GO ID,就可以链接到http://amigo.geneontology.org 官网,可以查看GO的具体信息。


           第二列为GO term的功能描述;

           第三列前面的数字为差异表达基因中富集到这个GO term的基因数,后面的数字为差异表达基因的总数;

           第四列前面的数字为背景基因中富集到这个GO term的基因数,后面的数字为背景基因的总数;

           第五列为P value,即计算第三列的百分比与第四列的百分比相比,是否有显著差异。我们将小于0.05的P value标红显示;

           第六列为多重检验校正后的Q value,也是把小于0.05的Q value标红显示。这些GO term是按照P value从小到大排列的,方便老师找差异富集结果。如在这个例子中,microtubule-based process为在差异基因中富集最显著的GO term,说明profile1中的基因显著富集于这个功能。



    3.  GO有向无环图(out.C/P/F.png)
           从整体上来看,GO注释系统是一个有向无环图(Directed Acyclic Graphs),GO各term之间的关系是单向的,GO term之间的分类关系有三种:is a、part of 和 regulates。具体的解释可看这个帖子:http://www.omicshare.com/forum/thread-538-1-1.html。富集分析结果会分别给出GO三个ontology(细胞组分、分子功能、生物过程)的有向无环图,如下图是生物过程的有向无环图:

    在这个图中,越接近根结点的GO term越概括,往下分支的GO term为注释到更细层级的term。我们来看每个GO term里的含义:

    其中,Pvalue 这一行,如果大于0.05,即会显示NA,即图中只显示显著的P value。

    形状的含义:程序默认把显著性最高的前10个GO term设置为方形,其他的GO term为圆形。

    颜色的含义:颜色越深,代表该GO term越显著。颜色由浅到深分别为:无色——浅黄——深黄——红色。
    那么,从颜色上来看,在molecular function这个ontology上,最显著的GO term是GO:0003774。因此后续可以从这个GO term入手,这个GO term所在的分支上的其他GO term也值得研究。

    意义:
    GO有向无环图展示了GO term之间的分类关系,并且从另一方面帮助老师寻找显著富集的GO term。


    四、引用
    大家如果在数据处理的过程中,使用了我们的omicshare tools云工具网站,那么在文章中的method部分可以这样引用:GO enrichment analysis was performed using the OmicShare tools,a free online platform for data analysis (www.omicshare.com/tools)。

    五、详细版:英文method 加 引用

    Gene Ontology (GO)is an international standardized gene functional classification system whichoffers a dynamic-updated controlled vocabulary and a strictly defined conceptto comprehensively describe properties of genes and their products in anyorganism. GO has three ontologies: molecular function, cellular component andbiological process. The basic unit of GO is GO-term. Each GO-term belongs to a type of ontology.
    GO enrichment analysis provides all GO terms that significantly enriched in DEGs comparing to the genome background, and filter the DEGs that correspond to biological functions. GO enrichment analysis was performed using the OmicShare tools,a free online platform for data analysis (www.omicshare.com/tools)Firstly all DEGs were mapped to GO terms in the Gene Ontology database (http://www.geneontology.org/), gene numbers were calculated for every term, significantly enriched GO terms in DEGs comparing to the genome background were defined by hypergeometric test. The calculated p-value was gone through FDR Correction, taking FDR ≤ 0.05 as a threshold. GO terms meeting this condition were defined as significantly enriched GO terms in DEGs. This analysis was able to recognize the main biological functions that DEGs exercise.



    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    回复

    使用道具 举报

  • TA的每日心情
    好棒
    2018.6.15 11:47
  • 签到天数: 209 天

    连续签到: 1 天

    [LV.7]常住居民III

    中华鲟

    Rank: 5Rank: 5

    主题
    15
    奥币
    1550
    积分
    900
    注册时间
    2016.4.26
    在线时间
    184 小时

    发表于 2016.5.25 19:46:21 | 显示全部楼层
    太棒了!~
    回复

    使用道具 举报

  • TA的每日心情

    2017.4.30 10:09
  • 签到天数: 188 天

    连续签到: 1 天

    [LV.7]常住居民III

    中华鲟

    Rank: 5Rank: 5

    主题
    7
    奥币
    1381
    积分
    623
    注册时间
    2016.1.21
    在线时间
    94 小时

    发表于 2016.5.26 08:25:41 | 显示全部楼层
    很好
    回复

    使用道具 举报

  • TA的每日心情
    忙~
    2018.10.8 11:47
  • 签到天数: 15 天

    连续签到: 1 天

    [LV.4]偶尔看看III

    帝王蝶

    Rank: 4

    主题
    0
    奥币
    1558
    积分
    227
    注册时间
    2015.11.19
    在线时间
    112 小时

    发表于 2016.5.26 09:21:48 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情
    好棒
    2018.8.29 19:44
  • 签到天数: 312 天

    连续签到: 1 天

    [LV.8]以坛为家I

    帝王蝶

    Rank: 4

    主题
    0
    奥币
    1343
    积分
    429
    注册时间
    2016.3.31
    在线时间
    127 小时

    发表于 2016.5.26 10:04:31 | 显示全部楼层
    集合了BiNGO,WEGO和AgriGO于一体吗

    点评

    差不多就是这个效果。  发表于 2016.5.26 13:26
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2017.10.18 18:03
  • 签到天数: 55 天

    连续签到: 1 天

    [LV.5]常住居民I

    中华鲟

    Rank: 5Rank: 5

    主题
    15
    奥币
    933
    积分
    820
    注册时间
    2016.5.12
    在线时间
    85 小时

    发表于 2016.5.26 14:59:08 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情

    2016.12.13 14:32
  • 签到天数: 8 天

    连续签到: 1 天

    [LV.3]偶尔看看II

    帝王蝶

    Rank: 4

    主题
    2
    奥币
    648
    积分
    401
    注册时间
    2016.4.10
    在线时间
    36 小时

    发表于 2016.5.26 15:03:28 | 显示全部楼层
    介绍很不错!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    害羞
    8 小时前
  • 签到天数: 896 天

    连续签到: 3 天

    [LV.10]以坛为家III

    功夫熊猫

    Rank: 10Rank: 10Rank: 10

    主题
    1
    奥币
    17264
    积分
    3499
    注册时间
    2016.4.25
    在线时间
    767 小时

    灌水之王


    发表于 2016.5.26 21:29:57 | 显示全部楼层
    读完,很好啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    好棒
    2018.8.29 19:44
  • 签到天数: 312 天

    连续签到: 1 天

    [LV.8]以坛为家I

    帝王蝶

    Rank: 4

    主题
    0
    奥币
    1343
    积分
    429
    注册时间
    2016.3.31
    在线时间
    127 小时

    发表于 2016.5.27 09:56:05 | 显示全部楼层
    cowriegump 发表于 2016.5.26 10:04
    集合了BiNGO,WEGO和AgriGO于一体吗

    这个真是太厉害了,佩服你们…以后有机会一定去拜访
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    yes!
    2018.3.22 15:20
  • 签到天数: 166 天

    连续签到: 1 天

    [LV.7]常住居民III

    版主

    Rank: 10Rank: 10Rank: 10

    主题
    11
    奥币
    1109
    积分
    394
    注册时间
    2015.12.29
    在线时间
    82 小时

    发表于 2016.5.27 10:33:19 | 显示全部楼层
    学习学习
    回复

    使用道具 举报

    该用户从未签到

    草履虫

    Rank: 2

    主题
    0
    奥币
    370
    积分
    18
    注册时间
    2016.5.22
    在线时间
    2 小时

    发表于 2016.5.30 21:51:11 | 显示全部楼层
    很好!感谢分享!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2017.10.31 19:51
  • 签到天数: 7 天

    连续签到: 1 天

    [LV.3]偶尔看看II

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    410
    积分
    106
    注册时间
    2016.5.30
    在线时间
    14 小时

    发表于 2016.5.31 12:58:00 | 显示全部楼层
    感谢分享~
    回复

    使用道具 举报

  • TA的每日心情

    2018.4.20 15:04
  • 签到天数: 47 天

    连续签到: 1 天

    [LV.5]常住居民I

    中华鲟

    Rank: 5Rank: 5

    主题
    3
    奥币
    783
    积分
    878
    注册时间
    2016.4.22
    在线时间
    34 小时

    发表于 2016.5.31 14:48:19 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情

    2016.6.16 08:29
  • 签到天数: 2 天

    连续签到: 2 天

    [LV.1]初来乍到

    草履虫

    Rank: 2

    主题
    3
    奥币
    394
    积分
    35
    注册时间
    2016.6.12
    在线时间
    3 小时

    发表于 2016.6.14 14:05:39 | 显示全部楼层
    每个基因对应的go号  这些数据从哪获得啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2016.10.21 09:23
  • 签到天数: 87 天

    连续签到: 1 天

    [LV.6]常住居民II

    版主

    Rank: 10Rank: 10Rank: 10

    主题
    17
    奥币
    3052
    积分
    1136
    注册时间
    2015.12.7
    在线时间
    141 小时

    优秀版主


     楼主| 发表于 2016.6.14 15:37:37 | 显示全部楼层
    小恩 发表于 2016.6.14 14:05
    每个基因对应的go号  这些数据从哪获得啊

    如何得到基因的GO注释?
          有一些同学不知道如何获得背景基因的GO号。通常,如果你的数据是从公司测序得到的,那么测序报告里都会有。如果你是自己捣腾的数据,那么,如果是无参考基因组的物种,就需要根据unigene的Nr注释,用Blast2go软件得到unigene的GO注释信息。具体Blast2go的使用,可参考我们第二期在线交流课堂:http://www.omicshare.com/forum/thread-176-1-1.html。如果是有参考基因组的物种,可以在GO 官网上下载GO注释信息,也可以在Biomart上下载物种的GO注释信息,我们也有相应的教程:http://www.omicshare.com/forum/thread-437-1-1.html
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2016.6.16 08:29
  • 签到天数: 2 天

    连续签到: 2 天

    [LV.1]初来乍到

    草履虫

    Rank: 2

    主题
    3
    奥币
    394
    积分
    35
    注册时间
    2016.6.12
    在线时间
    3 小时

    发表于 2016.6.14 22:05:13 | 显示全部楼层
    多谢啦!
    回复

    使用道具 举报

  • TA的每日心情

    2016.10.28 16:47
  • 签到天数: 45 天

    连续签到: 1 天

    [LV.5]常住居民I

    钵水母

    Rank: 3Rank: 3

    主题
    3
    奥币
    538
    积分
    108
    注册时间
    2016.5.11
    在线时间
    44 小时

    发表于 2016.6.21 18:40:03 | 显示全部楼层
    楼主您好,我想问一下我想做的GO富集分析中,有一个高感品种,有一个中抗品种,我在趋势分析中找了一些我认为会影响植物抗性的基因,这些基因时两个品种的趋势给的基因的交集,我想问一下,如果我想做富集分析的话应该把哪个品种的基因作为背景呢?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2016.10.21 09:23
  • 签到天数: 87 天

    连续签到: 1 天

    [LV.6]常住居民II

    版主

    Rank: 10Rank: 10Rank: 10

    主题
    17
    奥币
    3052
    积分
    1136
    注册时间
    2015.12.7
    在线时间
    141 小时

    优秀版主


     楼主| 发表于 2016.6.22 09:47:02 | 显示全部楼层
    红叶丶李 发表于 2016.6.21 18:40
    楼主您好,我想问一下我想做的GO富集分析中,有一个高感品种,有一个中抗品种,我在趋势分析中找了一些我认 ...

    你的物种有没有参考基因组?你是把两个品种的reads一起拼接成一个转录组吗?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2016.10.28 16:47
  • 签到天数: 45 天

    连续签到: 1 天

    [LV.5]常住居民I

    钵水母

    Rank: 3Rank: 3

    主题
    3
    奥币
    538
    积分
    108
    注册时间
    2016.5.11
    在线时间
    44 小时

    发表于 2016.7.4 10:02:10 | 显示全部楼层
    基迪奥小师妹 发表于 2016.6.22 09:47
    你的物种有没有参考基因组?你是把两个品种的reads一起拼接成一个转录组吗? ...

    我做的物种有参考基因组,两个品种都做了测序,我想找的是,例如,在一个品种中持续上调,在另一个品种中持续下调,这两种趋势的交集有一部分基因,前景基因我知道,就是这些基因的交集,但是背景基因我就不知道如何选择了,是否应该用这两种趋势的所有基因的并集作为背景基因呢?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2016.10.21 09:23
  • 签到天数: 87 天

    连续签到: 1 天

    [LV.6]常住居民II

    版主

    Rank: 10Rank: 10Rank: 10

    主题
    17
    奥币
    3052
    积分
    1136
    注册时间
    2015.12.7
    在线时间
    141 小时

    优秀版主


     楼主| 发表于 2016.7.4 11:32:28 | 显示全部楼层
    红叶丶李 发表于 2016.7.4 10:02
    我做的物种有参考基因组,两个品种都做了测序,我想找的是,例如,在一个品种中持续上调,在另一个品种中 ...

    用这两个品种做趋势分析的所有基因作为背景基因。(即所有趋势的所有基因)
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表