原理:
在生物体内,不同基因相互协调行使其生物学功能,基于Pathway的分析有助于更进一步了解基因的生物学功能。KEGG是有关Pathway的主要公共数据库。 Pathway显著性富集分析以KEGG Pathway为单位,应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著性富集的Pathway。
P的计算公式 :
其中,N为所有基因(背景基因)的数量,n为差异基因(目的基因)的数量,M为所有基因中该pathway的数量,i为差异基因中注释到该pathway的数量,计算得到的pvalue通过FDR校正之后,以corrected-pvalue≤0.05为阈值,满足此条件的pathway定义为在差异表达基因中显著富集的pathway。
功能:
输入目的基因、代谢物列表(常见为差异基因或差异代谢物),通过预设定参数,进行KEGG富集分析并将分析结果进行精美图形可视化,输出图形有富集气泡图、富集条形图、富集圈图、z-score气泡图
适用范围:
可对18个常见物种的基因集进行富集分析,牛、斑马鱼、人、猕猴、小鼠、大鼠、猪、秀丽线虫、果蝇、拟南芥、水稻、番茄、小麦、玉米、酵母、山羊、鸡、籼稻,并且提供2个基因组版本;
也可以自行准备研究物种的背景基因进行富集分析。
数 据 整 理
数据类型:基因
1. 输入的表格文件,支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式,同样支持旧版Excel的xls(Excel 97-2003 )格式。
2. 输入文件1——富集的目的基因列表,即想要研究的基因列表:
第一列为基因id(必填),第二列可以为差异表达倍数(可选输入,不包含log2fc则无法绘制富集差异z-score气泡图),具体请查看示例文件格式。
目的基因要包含在背景基因表中。需添加列名。
3.输入文件2——背景基因总表,即所有基因的列表:
①如果是平台有提供背景文件的上述18种常见物种,可以直接选用平台提供的背景;注意点击“预览背景基因”查看基因ID类型是否与平台一致,不一致,需要先进行转换。
②不是上述18种常见物种,或基因ID类型不一致且无法转换,需要选“其他物种”,上传自备的背景文件。背景文件第一列为基因id,第二列为用于获取pathway的一个id,类型有4:
类型1:KO号,例如K10942,必须为基因大K号(K number)
类型2:ncbi-geneid,例如18053,即ncbi上得到的geneid,一连串数字组成。
类型3:kegid,例如mmu:18053,即KEGG官网上的id,可以通过KEGG注释或者KEGG官网获得
类型4:kopath,为本公司提供的类型文件,第一列为基因id,第二列为KO号,第三列为通路编号,以“,”分隔,第4列为kegid。
数据类型:代谢物
①目的代谢物文件:格式同目的基因文件。
② 背景代谢物文件:
类型1:C number, 表格由代谢物id和C number(KEGG COMPOUND Database entry id,例如C00047)这两2组成。
类型2:pathway num,表格由代谢物id、C number和pathway number(5位数字,pathway id去掉前面的字母,如00020)。
注意,同样的数据,选择类型1会富集到更多的pathway条目,注意删除不属于当前物种的pathway。
1.总览

2.结果统计表

3.数目统计图

4.显著性柱状图

5.显著性气泡图

Q1. 为什么使用平台背景基因,任务出错?
在提交之前,强烈建议大家在选择号物种/版本/类型后点击“预览背景基因”,查看平台提供的基因跟目的基因类型是否相同。
常见出错类型:
①平台提供的是Ensembl ID,但是目的基因表是symbol或其他id类型,则需要对目的基因进行基因ID转换;
PS:基因ID转换工具教程
②Ensembl id的结构是“物种前缀+序列类型+数字”Ensembl ID 后面的”小数”部分为版本号,如ENSG00000121410.11,小数部分的版本号必须删除。
Q2. 为什么按照示例文件整理背景基因,却出错?
背景基因的类型一般有3种,包括kegid、ncbi-geneid、KO号。只需要准备一列gene id ,一列kegid/ncbi-geneid/KO号即可。一般较常用到的是KO号。
① 注意这里的KO号是指KEGG Orthologs,即基因大K号(如:K10942),而不是KEGG Ontologs(如KO352);
②如下图,含有过多注释信息容易导致运行出错,这里,我们只需要保留gene id 及 k号即可。
③注意类型参数是否跟准备的文件一致。
Q3. 提交时报错常见问题:
1.提交时显示X行X列空行/无数据,请先自查表格中是否存在空格或空行,需要删掉。
2.提交时显示列数只有1列,但表格数据不止1列:列间需要用分隔符隔开,先行检查文件是否用了分隔符。
其它提示报错,请先自行根据提示修改;如果仍然无法提交,可通过左侧导航栏的“联系客服”选项咨询OmicShare客服。
【关于结果的常见问题】
Q4.为什么结果中 p value 全为1:
pvalue全为1,基本是目的基因数目与背景基因数目完全一样所致。注意,富集分析中的背景基因是当前物种所有基因的列表。
Q5. 为什么代谢通路图中会出现半绿半红的框?
一半红一半绿的框表示多个基因都属于这个基因家族,其中一个基因表达上调,另一个基因表达下调。
Q6.为什么pathway注释统计图中有不属于我物种的分类?比如我分析的物种是植物,却出现了人相关的分类名?
这是因为在选择参数时,物种类型选择了“全库”,可以根据物种进行类型选择;或者去掉不相关的分类名称。