KEGG富集分析


*
*
*ProVIP免费
*VIP免费
*当前账户剩余0次

了解该工具的原理与详细解析,请点击>>

 

最新的KEGG富集分析高级版工具不但支持基因的功能富集分析,还支持代谢组数据的功能富集分析,二者原理相同,操作方法相似,以下主要以基因为例进行说明。

 

原理:
在生物体内,不同基因相互协调行使其生物学功能,基于Pathway的分析有助于更进一步了解基因的生物学功能。KEGG是有关Pathway的主要公共数据库。 Pathway显著性富集分析以KEGG Pathway为单位,应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著性富集的Pathway。
P的计算公式:

其中,N为所有基因(背景基因)的数量,n为差异基因(目的基因)的数量,M为所有基因中该pathway的数量,i为差异基因中注释到该pathway的数量,计算得到的pvalue通过FDR校正之后,以corrected-pvalue≤0.05为阈值,满足此条件的pathway定义为在差异表达基因中显著富集的pathway。

 

功能:

输入目的基因、代谢物列表(常见为差异基因或差异代谢物),通过预设定参数,进行KEGG富集分析并将分析结果进行精美图形可视化,输出图形有富集气泡图、富集条形图、富集圈图、z-score气泡图

 

适用范围:

可对18个常见物种的基因集进行富集分析,牛、斑马鱼、人、猕猴、小鼠、大鼠、猪、秀丽线虫、果蝇、拟南芥、水稻、番茄、小麦、玉米、酵母、山羊、鸡、籼稻,并且提供2个基因组版本;

也可以自行准备研究物种的背景基因进行富集分析。注意,对于代谢组数据,必须使用自己准备的代谢物背景文件进行富集分析。

 

 数 据 整 理 

 

数据类型:基因

 

1. 输入的表格文件,支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式,同样支持旧版Excel的xls(Excel 97-2003 )格式。

 

2. 输入文件1——富集的目的基因列表,即想要研究的基因列表:

第一列为基因id(必填),第二列可以为差异表达倍数(可选输入,不包含log2fc则无法绘制富集差异z-score气泡图),具体请查看示例文件格式。

目的基因要包含在背景基因表中。需添加列名。

 

3.输入文件2——背景基因总表,即所有基因的列表:

①如果是平台有提供背景文件的上述18种常见物种,可以直接选用平台提供的背景;注意点击“预览背景基因”查看基因ID类型是否与平台一致,不一致,需要先进行转换。

②不是上述18种常见物种,或基因ID类型不一致且无法转换,需要选“其他物种”,上传自备的背景文件。背景文件第一列为基因id,第二列为用于获取pathway的一个id,类型有4:

类型1:KO号,例如K10942,必须为基因大K号(K number)

类型2:ncbi-geneid,例如18053,即ncbi上得到的geneid,一连串数字组成。

类型3:kegid,例如mmu:18053,即KEGG官网上的id,可以通过KEGG注释或者KEGG官网获得

类型4:kopath,为本公司提供的类型文件,第一列为基因id,第二列为KO号,第三列为通路编号,以“,”分隔,第4列为kegid。

 

数据类型:代谢物

 

①目的代谢物文件:格式同目的基因文件。

 

② 背景代谢物文件:

类型1:C number, 表格由代谢物id和C number(KEGG COMPOUND Database entry id,例如C00047)这两2组成。

类型2:pathway num,表格由代谢物id、C number和pathway number(5位数字,pathway id去掉前面的字母,如00020)。

注意,同样的数据,选择类型1会富集到更多的pathway条目,注意删除不属于当前物种的pathway。

 

参数:

① 背景基因表类型有4种,分别为:KO,ncbi-geneid、KEGGid、kopath。

② 数据库:当背景基因表类型为keggid和ncbi-geneid时,选择相应物种库和全库都可以,但选择相应物种库能缩短运行时间;当背景基因表类型为KO类型时,建议选择相应物种库进行注释。

③ 是否包含Log2FC列:按目的基因实际勾选,不含Log2FC、无法输出富集差异气泡图。

④ 选择P值或Q值作图:P-value/Q-value

⑤ 选择前多少个通路作图:15/20/25/30

⑥ 输出图形选择:富集气泡图/富集条形图/富集圈图/z-score气泡图

 

输出:

① out.path.xls : 目的基因相对于背景基因的富集统计表。

② out_map: 目的基因在各个pathway map的结果图。

③ out.path.png/svg:各个pathway的B级分类的统计图(png/svg格式)(默认每次都输出)。

④ out.barplot/gradient.png/pdf:前n个显著富集条形图或气泡图(png/pdf格式)(n表示选择前多少个通路作图的数量)。

⑤ out.bubble/bubble_sp.png/pdf:前20个显著富集差异z-score气泡图(png/pdf格式)(如果通路太多,则影响图形美观和整体布局,所以该图形默认使用前20个通路绘图)。

⑥ out.circular.png/svg:前n个显著富集圈图(png/svg格式)(n表示选择前多少个通路作图的数量)。

⑦ out.bar_Gradient.xls:绘制富集圈图文件,可用该文件在动态富集圈图工具进行个性化修改。

⑧ out.edge.txt 和 out.node.txt:用这两个文件可在Cytoscape工具中绘制kegg网络图。(包括了补充连接通路和补充相邻通路)(具体参见kegg网络图

⑨ 点击我的运行窗口中的“预览”,可以对kegg网络图进行个性化修改。(不了解该功能的用户,可以参见kegg网络图)。

注意:该功能不在输出文件中,需要自己调整后可输出png/svg格式的图形。

⑩ out.htm: 网页格式结果。

 

富集分析图形解读及应用请点击该链接查看详情:

 

富集分析相关图形详解(上篇)                                                                               

富集分析相关图形详解(下篇)

 

示例文件:

                目的基因列表(无差异信息)

                目的基因列表(含差异信息)

                背景基因文件

输入:

富集分析的步骤:

第1步:上传目的基因文件;

第2步:选择(或上传)背景基因文件;

第3步:提交。

方式一:使用工具自带的背景基因文件

方式二:使用自己准备的背景文件进行富集分析

输出:

 

 out_map: 目的基因在各个pathway map的结果图

 

 

② out.bubble/bubble_sp.png/pdf:前20个显著富集差异通路的z-score气泡图

 

图形解读:https://www.omicshare.com/forum/thread-6771-1-1.html

 

③ out.circular.png/svg:前20个显著富集差异通路圈图

 

图形解读:https://www.omicshare.com/forum/thread-6972-1-1.html

 

④ kegg 网络图 (该图需要任务运行结果页面点击“预览”,自定义选择需要展示的通路来绘制kegg网络图

 

 

图形解读:https://www.omicshare.com/forum/thread-6779-1-1.html

 

⑤ out.barplot/gradient.png/pdf:前20个显著富集通路的条形图和气泡图

 

 

⑥ out.path.png/svg:各个pathway的B级分类的统计图

 

 

 

⑦  out.htm:网页格式结果分两个部分,上面为pathway的富集信息(图1),包括pathway名,基因数,背景基因数,P值,Q值,pathwayID,下面为每个pathway具体的基因(图2),点击pathway名可以查看基因在pathway的信息(即① out_map)

 

                                                                                                                 图1

 

                                                                                                                 图2

 

Q1. 为什么使用平台背景基因,任务出错?

 

在提交之前,强烈建议大家在选择号物种/版本/类型后点击“预览背景基因”,查看平台提供的基因目的基因类型是否相同。

 

常见出错类型:

 

①平台提供的是Ensembl ID,但是目的基因表是symbol或其他id类型,则需要对目的基因进行基因ID转换;

PS:基因ID转换工具教程

 

②Ensembl id的结构是“物种前缀+序列类型+数字”Ensembl ID 后面的”小数”部分为版本号,如ENSG00000121410.11,小数部分的版本号必须删除

 

 

Q2. 为什么按照示例文件整理背景基因,却出错?

 

背景基因的类型一般有3种,包括kegid、ncbi-geneid、KO号。只需要准备一列gene id ,一列kegid/ncbi-geneid/KO号即可。一般较常用到的是KO号。

① 注意这里的KO号是指KEGG Orthologs,即基因大K号(如:K10942),而不是KEGG Ontologs(如KO352);

②如下图,含有过多注释信息容易导致运行出错,这里,我们只需要保留gene id 及 k号即可。

③注意类型参数是否跟准备的文件一致。

 

 

Q3.  提交时报错常见问题:

 

1.提交时显示X行X列空行/无数据,请先自查表格中是否存在空格或空行,需要删掉。

2.提交时显示列数只有1列,但表格数据不止1列:列间需要用分隔符隔开,先行检查文件是否用了分隔符。

其它提示报错,请先自行根据提示修改;如果仍然无法提交,可通过左侧导航栏的“联系客服”选项咨询OmicShare客服。

 

 

【关于结果的常见问题】

 

Q4.为什么结果中 p value 全为1:

 

pvalue全为1,基本是目的基因数目与背景基因数目完全一样所致。注意,富集分析中的背景基因是当前物种所有基因的列表。

 

 

Q5. 为什么代谢通路图中会出现半绿半红的框?

 

一半红一半绿的框表示多个基因都属于这个基因家族,其中一个基因表达上调,另一个基因表达下调。

 

 

Q6.为什么pathway注释统计图中有不属于我物种的分类?比如我分析的物种是植物,却出现了人相关的分类名?

 

这是因为在选择参数时,物种类型选择了“全库”,可以根据物种进行类型选择;或者去掉不相关的分类名称。

 

 

Q7.下图片不清晰?

 

kegg富集分析高级版工具同时提供位图(png)和矢量图(pdf)两种类型的图片。矢量图可以无限放大、不会出现模糊的情况。

 

 

Q8.结果图片可以修改吗?如何修改?

 

静态工具输出的图片无法在线修改,在结果下载包中有提供位图(png)和矢量图(pdf)两种类型图片,如需修改:

①可以将pdf图导入AI(Adobe Illustrator)等软件进行调整。

②根据输出的结果,搜索相关动态工具进行绘制。

kegg网络图可以在线进行调整。在“我的项目”中点击小眼睛“预览”可进入调整页面,并下载(位图png、矢量图pdf或svg)。

 

引用OmicShare Tools的参考文献为:

Mu, Hongyan, Jianzhou Chen, Wenjie Huang, Gui Huang, Meiying Deng, Shimiao Hong, Peng Ai, Chuan Gao, and Huangkai Zhou. 2024. “OmicShare tools: a Zero‐Code Interactive Online Platform for Biological Data Analysis and Visualization.” iMeta e228. https://doi.org/10.1002/imt2.228

案例1

 

发表期刊:Signal Transduction and Targeted Therapy

影响因子:39.3

发表时间:2022

 

Figure. S1. BCAA catabolic defects were seen in the post-ischemic heart. (a) KEGG analysis of DEGs downregulated in the hearts of mice with ICM compared to healthy controls. (b) KEGG analysis of DEGs downregulated in hearts of humans with ICM compared to healthy donors.

 

引用方式:

Kyoto Encyclopedia of Genes and Genomes (KEGG) enrichment analysis was performed using the OmicShare tool (https://www.omicshare.com/tools/home/report/koenrich.html).

 

参考文献:

Zhang F, Hu G, Chen X, et al. Excessive branched-chain amino acid accumulation restricts mesenchymal stem cell-based therapy efficacy in myocardial infarction[J]. Signal Transduction and Targeted Therapy, 2022, 7(1): 171-171.

 

案例2

 

发表期刊:Environmental Science & Technology

影响因子:11.4

发表时间:2023

 

 

引用方式:The OmicShare tool was used to analyze the KEGG enrichment pathways of the DEGs.

 

参考文献:

Lai J, Li Z, Wang Y, et al. Tritium and Carbon-14 Contamination Reshaping the Microbial Community Structure, Metabolic Network, and Element Cycle in the Seawater Environment[J]. Environmental Science & Technology, 2023, 57(13): 5305-5316.

 

案例3

 

发表期刊:Nutrients

影响因子:5.9

发表时间:2022

 

Figure 5. Analysis of differentially expressed proteins in C vs. M (A), C vs. T (B), and M vs. T (C) in KEGG pathway. Top 20 of KEGG enrichment pathway in C vs. M (D), C vs. T (E), and M vs. T (F).

 

引用方式:Omicshare online software was used for gene ontology (GO) annotation to analyze the annotation function of milk protein. Pathway analysis of the identified milk proteins was performed based on the online Omicshare software using the Kyoto Encyclopedia of Genes and Genomes (KEGG) pathway database.

 

参考文献:

Zhang Y, Zhang X, Mi L, et al. Comparative proteomic analysis of proteins in breast milk during different lactation periods[J]. Nutrients, 2022, 14(17): 3648.

 

案例4

 

发表期刊:Frontiers in cell and developmental biology

影响因子:5.5

发表时间:2021

FIGURE 2. (E) KEGG analysis was performed to identify differential pathway enrichment.

 

引用方式:Data analysis was performed using the OmicShare tools at www.omicshare.com/tools.

 

参考文献:

Gao X Y, Zang J, Zheng M H, et al. Temozolomide treatment induces HMGB1 to promote the formation of glioma stem cells via the TLR2/NEAT1/Wnt pathway in glioblastoma[J]. Frontiers in cell and developmental biology, 2021, 9: 620883.

 

案例5

 

发表期刊:Journal of Ethnopharmacology

影响因子:5.4

发表时间:2023

 

Fig. 7. GO and KEGG enrichment analysis. A Enrichment results of biological processes. B Enrichment results of KEGG pathways. C Multiple common targets were enriched in the TNF signaling pathway.

 

引用方式:The OmicShare website (https://www.omicshare.com/) was used to draw the dynamic enrichment bubble plot of GO analysis and signaling pathways.

 

参考文献:

Yan M, Zhao J, Kang Y, et al. Effect and mechanism of safranal on ISO-induced myocardial injury based on network pharmacology[J]. Journal of Ethnopharmacology, 2023, 305: 116103.

 

案例6

 

发表期刊:International Journal of Molecular Sciences

影响因子:5.6

发表时间:2022

 

Figure 4. Gene co-expression network analysis. (c) KO (KEGG Ontology) enrichment circle diagram of cyan module (from the outside to the inside, the first circle represents the top 20 enrichment pathways, and the number outside the circle is the coordinate ruler of the number of genes; The second circle represents the number and Q value of background genes in this pathway, and the more genes, the longer the bar; The third circle represents the number of the DEGs in this pathway; The fourth circle represents the value of Rich Factor in each pathway)

 

引用方式:By means of the OmicShare tools (https://www.omicsmart.com/, accessed on 1 November 2021), a weighted gene co-expression network analysis was constructed to explore molecular regulatory mechanisms involved in photosynthesis.

 

参考文献:

Zhang L, Zhang Z, Fang S, et al. Metabolome and transcriptome analyses unravel the molecular regulatory mechanisms involved in photosynthesis of Cyclocarya paliurus under salt stress[J]. International Journal of Molecular Sciences, 2022, 23(3): 1161.

 

案例7

 

发表期刊:Pharmacological Research

影响因子:9.3

发表时间:2023

 

Fig. 4. Quantitative proteomics analysis of PC tumor tissues revealed the changed metabolic enzymes of AMP. (A) The KEGG pathway enrichment analysis based on differential proteins of PC tumor tissues.

 

引用方式:KEGG enrichment pathways with P-value less than 0.05 and relevant to this study were characterized using the OmicShare tools (https://www.omicshare.com/tools).

 

参考文献:

Liu J, Jing W, Wang T, et al. Functional metabolomics revealed the dual-activation of cAMP-AMP axis is a novel therapeutic target of pancreatic cancer[J]. Pharmacological Research, 2023, 187: 106554.

 

 

案例8

 

发表期刊:Precision Medicine Research

发表时间:2022

 

Figure 5. KEGG analysis of the overlapping DEGs between HCC and BC.

 

引用方式:The OmicShare database (https://www.omicshare.com/) was used for the visual analysis of KEGG and GO for enrichment analysis. Consequently, we selected the KEGG pathway analysis through the OmicShare database to execute functional annotation on HCC and BC overlapping DEGs.

 

参考文献:

Xie Z F, Li G G. Identification of overlapping differentially expressed genes in hepatocellular carcinoma, breast cancer, and depression by bioinformatics analysis[J]. Precis Med Res, 2022, 4(3): 11.

 

案例9

 

发表期刊:Animals

影响因子:3.0

发表时间:2022

 

Figure 3. GO and KEGG analysis of DEGs for Duroc and Luchuan adipose. (B) KEGG summary graph showing the summary of the KEGG pathway. Different colors represent different KEGG A class categories.

 

引用方式:

Gene expression level was measured by Fragments per Kilobase per Million Mapped Fragments (FPKM) [17], the most commonly used method for estimating gene expression abundance. DEGSeq [18] was used to analyze DEGs (|Fold Change| > 2 and p-value < 0.01).The Principal Component Analysis (PCA), Gene Ontology (GO) term enrichment analysis, Kyoto Encyclopedia of Genes and Genomes (KEGG) pathway enrichment analysis and GSEA were performed using Omicshare, a real-time interactive online data analysis platform (p-value < 0.05) (http://www.omicshare.com (accessed on 18 February 2022)) [19].

 

参考文献:

Pan H, Huang T, Yu L, et al. Transcriptome Analysis of the Adipose Tissue of Luchuan and Duroc Pigs[J]. Animals, 2022, 12(17): 2258.