GO富集分析


1: *
*
2: *
所有基因的GO注释文件,格式为第一列为基因id,第二类为GO注释结果
*
*ProVIP免费
*VIP免费
*当前账户剩余0次

了解该工具的原理与详细解析,请点击>>

 

原理:
Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology(本体),分别描述基因的分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)。GO的基本单位是term(词条、节点),每个term都对应一个属性。GO功能分析一方面给出差异表达基因的GO功能分类注释;另一方面给出差异表达基因的GO功能显著性富集分析。 首先,我们将差异表达基因向GO数据库(http://www.geneontology.org/)的各term映射,并计算每个term的基因数,从而得到具有某个GO功能的基因列表及基因数目统计。然后应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著富集的GO条目。
P的计算公式:

 其中,N为所有Unigene中具有GO注释的基因数目;n为N中差异表达基因的数目;M为所有Unigene中注释为某特定GO term的基因数目;m为注释为某特定GO term的差异表达基因数目。计算得到的pvalue通过FDR校正之后,以corrected-pvalue≤0.05为阈值,满足此条件的GO term定义为在差异表达基因中显著富集的GO term。通过GO功能显著性富集分析能确定差异表达基因行使的主要生物学功能。

 

功能:

输入基因集或差异分析基因集,通过预设定参数,进行GO富集分析并将分析结果进行精美图形可视化,输出图形有富集气泡图、富集条形图、富集圈图、z-score气泡图、网络图、二级分类统计图(输出图形可选)

 

适用范围:

可对18个常见物种的基因集进行富集分析,牛、斑马鱼、人、猕猴、小鼠、大鼠、猪、秀丽线虫、果蝇、拟南芥、水稻、番茄、小麦、玉米、酵母、山羊、鸡、籼稻,并且提供3个基因组版本;

也可以自行准备研究物种的背景基因进行富集分析。

 

输入:(文件格式和GO富集分析相同)

① 富集的目的基因列表,即想要研究的基因列表,可选择输入两种文件类型,有无差异基因列;两种上传方式,手动输入/上传文件。

文件支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式,同样支持旧版Excel的xls(Excel 97-2003 )格式。

Nodiff文件格式:

 

Unigene117178
Unigene129340
Unigene66777
Unigene78052

Unigene171181

 

Diff文件格式:

 

Unigene117178 14.433051
Unigene129340 8.27829505
Unigene66777 10.68610256
Unigene77686 8.170500036
Unigene78052 8.083759015

 

提示:如果没有加入基因的差异倍数(即选择输入Nodiff文件格式),则不会输出富集差异z-score气泡图。

 

② 背景基因总表,如果是有参考基因组的模式生物,可以直接使用已有参考基因作为背景基因文件。目前提供的物种有水稻、拟南芥、小鼠、大鼠、斑马鱼、鸡、秀丽线虫、果蝇、人。ID类型可选择基因ID或转录本ID,根据富集目的基因的ID类型决定。可以点击“预览参考文件”来查看具体ID。
如果所研究物种不在以上范围,则需要自行准备GO背景基因文件。现在支持两种格式。第一种:格式为第一列为基因id,第二列为GO注释结果。第二种:同一个基因的所有GO号会在同一行并列给出。任务提交后,程序会自动判断处理。如下图所示:

参数:

① 选择p值或者q值作图:P-value/Q-value

② 选择前多少个通路作图:15/20/25/30

③ 输出图形选择:富集气泡图/富集条形图/富集圈图/z-score气泡图

 

输出:

① out.[PFC].html: 网页格式结果,3个分别对应GO的3个主要分类。

② out.[PFC].xls: 基因的GO功能分类统计结果。

③ out.[PFC].barplot/gradient.png/pdf:基因的GO功能分类结果统计图(气泡图/条形图/有向无环网络图)(png/pdf格式)。

④ out.secLevel2.svg/png:为GO二级分类统计图,统计了用于富集的基因在GO 的二级分类中占各个分类的数量,统计结果在xls表中。表格内容包括,Ontology,Class(GO的二级分类),基因数,具体基因id。

⑤ out.level2.xls: GO第二级分类统计。

⑥ out.bubble/bubble_sp.png/pdf:  3个分类的z-score气泡图(png/pdf格式)(如果通路太多,则影响图形美观和整体布局,所以该图形默认使用前20个term绘图)

⑦ out.circular.png/svg: 富集圈图(png/svg格式)(最多展示25个GO term,如果选择30个GO term,则输出结果还是25个GO term)

 

富集分析图形解读及应用请点击该链接查看详情:

 

富集分析相关图形详解(上篇)                                                                             

富集分析相关图形详解(下篇)

 

 

示例文件:目的基因(含差异倍数)

                  背景基因

输入:

富集分析的步骤:

第1步:上传目的基因文件;

第2步:选择(或上传)背景基因文件;

第3步:提交。

方式一:使用工具自带的背景基因文件

方式二:使用自己准备的背景文件进行GO富集分析

输出:

① out.[PFC].html 网页格式结果,3个分别对应GO的3个主要分类。结果如下图所示, 包含两个部分:

第一部分为GO富集结果统计表,包括GOid,GO功能描述,基因比例,背景基因比例,P值,Q值,P值Q值 小于0.05的显示红色。

 

第二部分为GO富集的具体基因,点击GOid可以链接到http://amigo.geneontology.org 官网,可以查看GO的具体信息。

 

② out.[PFC].png,out.[PFC].pdf,out.[PFC].xls GO富集的富集气泡图、富集条形图、有向无环图只显示富集的GO term(即p值小于0.05的),没有小于 0.05的结果时,则没有这些文件。可以在xls结果从查看,结果与网页结果对应,包括GOid,GO功能描述,基因比例,背景基因比例,P值,Q值,以及相应的基因id。

 

③ out.secLevel.svg/png 图片结果如下图所示,为GO二级分类统计图,统计了用于富集的基因在GO 的二级分类中占各个分类的数量,统计结果在xls表中。表格内容包括,Ontology,Class(GO的二级分类),基因数,具体基因id。

 

④ out.bubble/bubble_sp.png/pdf 图片结果如下图所示,为GO富集分析的z-score气泡图,纵坐标为-log10(Pvalue),横坐标为up-down normalization值(差异上调基因数目与差异下调基因数目的差值占总差异基因的比例),气泡大小表示当前GO term富集到的目的基因数;黄线代表Q/Pvalue=0.05的阈值;右边为Q/P值前20的term/Pathway列表,不同的颜色代表不同的Ontology/A class。

 

 

⑤ out.circular.png/svg 图片结果如下图所示,为GO富集分析的圈图,从外到内共四圈:

第一圈:富集的分类,圈外为基因数目的坐标尺。不同的颜色代表不同的分类;

第二圈:背景基因中该分类的数目以及Q值或P值。基因越多条形越长,值越小颜色越红;

第三圈:上下调基因比例条形图,深紫色代表上调基因比例,浅紫色代表下调基因比例;下方显示具体的数值;当输入的差异基因数量只有一列(未区分上下调)时,第三圈显示前景基因的总数目;

第四圈:各分类的RichFactor值(该分类中前景基因数量除以背景基因数量),背景辅助线每个小格表示0.1。

 

 

Q1. 为什么上传目的基因,选用平台背景基因却出错?

 

 

(1)先确认自己物种是否已经切换。

(2)点击“预览背景基因”,查看平台提供的基因跟目的基因类型是否相同。

 

 

①平台提供的是Ensembl ID,但是目的基因表是symbol或其他id类型,则需要对目的基因进行基因ID转换;

②Ensembl id的结构是“物种前缀+序列类型+数字”Ensembl ID 后面的”小数”部分为版本号,如ENSG00000121410.11,小数部分的版本号必须删除。

 

 

Q2.怎么将基因转换成跟背景基因适配的类型呢?

 

①如果是上述18种常见物种,且手头上的基因类型是Gene_stable_ID/ Gene_name/NCBI_gene_ID/Gene_Synonym,那么可以使用“基因ID转换”(点击跳转)工具直接进行转换。

②如果不是上述物种或类型,可以通过BioMart等网址进行转换,相关教程在OmicShare论坛有很多,点击跳转相关教程

 

 

【关于结果的常见问题】

 

 

Q3.结果文件中的P/F/C是什么意思?

 

 

分别对应BP/MF/CC。

GO总共有三个ontology(本体),分别描述基因的分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)

 

 

Q4.为什么二级分类统计图没有上下调基因统计?

 

文件中没有log2FC或者文件中有数据但上传时没有勾选“包含”log2FC列。

 

 

Q5.为什么结果中 p value 全为1:

 

pvalue全为1,基本是目的基因数目与背景基因数目完全一样所致。注意,富集分析中的背景基因是当前物种所有基因的列表。

 

 

Q6.为什么二级分类统计图不是按照Gene number排序?

 

上传时,文件没有log2FC但勾选了“包含”,会导致出图时候基因数目没有按照降序排序,如下图。

 

 

Q7.为什么统计结果会比我上传的目的基因数目多?

 

由于一个基因常常对应多个GO term,因此同一个基因会在不同分类条目下出现,即被多次统计,因此如果把二级分类统计图所有柱子的基因数目加起来,肯定是多于profiel1总的基因数目的。