OmicShare Tools - 基迪奥生信云工具

了解GSEA工具原理及详细解析，请点击

https://www.omicshare.com/forum/thread-5044-1-1.html

1、功能

基于传统的超几何检验富集分析，往往需要用到显著差异基因集数据，而依赖固定阈值法筛选出的差异基因，往往会将变化较为微弱的基因筛除，使得差异基因数目很少，离散在各种通路中，出现无法明晰某个基因集对表型的贡献。GSEA分析（Gene Set Enrichment Analysis）不会对基因预过滤，能够有效弥补传统富集分析对微效基因的有效信息挖据不足等问题，更全面地对某一功能单位（通路、GO term或其他）的调节作用进行解释。

2、物种类型

可对18个常见物种进行富集分析，牛、斑马鱼、人、猕猴、小鼠、大鼠、猪、秀丽线虫、果蝇、拟南芥、水稻、番茄、小麦、玉米、酵母、山羊、鸡、籼稻，并且提供2个基因组版本；

3、分析数据

1.基因数据类型支持：基因ID号（Ensembl id）；其中人和小鼠支持基因Symbol号及基因ID号（Ensembl id）两种。

2.其余16个常见物种（除人和小鼠以外），如果数据为gene name等，需要先转换成基因ID号（Ensembl id）。

附：以人为例，Ensembl ID 跟基因symbol号区别：

4、版本及 数据库选择

GSEA是一种基于基因集的富集分析方法。基因集是事先根据功能或者其他一些原理把很多的基因分类成不同的基因集合。一个基因集可以是某个通路或者go term中的所有基因。基迪奥依据使用者提供的分析数据不同，提供了不同的基因集选择。

由于每个数据库收录的研究物种不同，勾选不同物种时对应版本及检索的数据库也不同。

1）当分析数据为基因Symbol号（人和小鼠可选），版本需要选择GSEA版本（GSEA_v2023.2 或 GSEA_v6.2）。

数据库则可在MSigDB数据库中依据需要进行选择。MSigDB数据库是GSEA官网提供的基因集数据库，其中包含了8种分类模式：

H：由多个已知的基因集构成的超基因集；

C1：包含人类每条染色体上的不同cytoband区域对应的基因集合。根据不染色体编码进行二级分类

C2：已知数据库基因集合集

C3：包含miRNA靶基因和转录因子结合区域等基因集合

C4：包含计算机软件预测出来的基因集合，主要是和癌症相关的基因

C5：GO基因集

C6：癌基因集

C7：免疫基因集

2）当分析数据为基因ID号时，版本需要选择Ensembl相关版本。

可勾选KEGG、GO、DO、Reactome四种数据库。

其中DO数据库主要用于描述基因功能与疾病的相关信息，目的是为生物医学界提供一致的人类疾病术语、表型特征和相关医学词汇疾病概念，是主要适用于人的数据库，当物种选择为人时，可勾选DO数据库，选择其他物种则不可勾选；

Reactome数据库汇集了人类各项反应及生物学通路的数据库，目前数据库已更新，增加了大小鼠等动物物种信息，但植物物种仍未收录，因此选择物种为植物时不能勾选此数据库。

5、所有基因表达量总表

由于在所有样本中表达量都为0的基因无法满足后续的排序要求，建议该表格应为：去掉在所有样本里表达量均为0的基因之后，获得表格。

6、分析参数选择

6.1 去除在所有样本中表达量为0之后的所有基因排序方式

选择以下方式分别计算各基因的数值，并依据数值对基因进行排序

Signal2Noise：用差值/标准差进行归一化校正：

T-test：组间T检验：

Ratio_of_Classes：组间表达量的比值，即差异倍数：

Log2_Ratio_of_clase：表达量差异倍数，取log值：

6.2 基因集范围

若功能基因集基因数目小于（默认15）或者大于（默认500)设定阈值则会过滤掉，不参与分析。

6.3 输出ES图数量

根据设定数字输出分析ES图，默认输出前20条通路结果。GSEA软件默认采用p-value<0.05,q-value<0.25作为显著性阈值。为了更快速的获得分析结果，自定义的范围值设置在100以内。

6.4 是否绘制GSEA点阵图

绘制GSEA点阵图的数量与ES图的数量一致。点阵图样式如下图所示。

输入

（以转录组测序获取的，人的基因表达量表为例）

1. 物种选择:人

2. 分析数据

本示例中，预定义基因集文件中，基因名称为基因的Symbol号，因此版本需要选择symbol号相关版本。

3. 预定义基因集文件

3.1 预定义基因集文件

预定义基因集为要分析的未知功能的基因集。文件具体要求如下：

输入的表格文件支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式，同样支持旧版Excel的xls(Excel 97-2003 )格式。

第一列为Gene_ID命名方式，后续为样本名称及对应的表达量，仅可分析两组样本；数字之间，列和列之间分隔用Tab。

示例文件如下：

Gene Name	ALL_1	ALL_2	ALL_3	AML_1	AML_2	AML_3
TACC2
DYT1
32385_at

3.2 分组文件

分组文件用于描述预定义基因集内样本的分组情况。文件具体要求如下：

输入的表格文件，支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式，同样支持旧版Excel的xls(Excel 97-2003 )格式。

文件第一列为样本名，第二列为所在的组名。注意：即使没有实验重复，依然需要填写这个文件（一个样本为一组）。示例文件如下：数字之间，列和列之间分隔用Tab。

示例文件如下：

ALL_1	ALL
ALL_2	ALL
ALL_3	ALL
AML_1	AML
AML_2	AML
AML_3	AML

3.3 比较组文件

定义分组信息。文件具体要求如下：

输入的表格文件，支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式，同样支持旧版Excel的xls(Excel 97-2003 )格式。

数据整理时，需按照对照组在前，处理组在后的格式。如第一列是ALL（对照组），第二列是AML（处理组）。比较时，以处理组比较对照组

示例文件如下：

ALL

AML

4 参数选择

本示例中，所有参数选择均勾选推荐参数或默认参数

输出

1 结果文件

（1）ALL-vs-AML.c3.mir.Gsea：结果文件夹，“c3”为选择的数据库

程序根据输入的文件和选定的参数输出GSEA软件原始分析结果，可查看显著富集的TOP N的通路ES图及leading edge等信息。点击文件夹内的，以网页形式查看总览结果。

2 结果解读

2.1表格解读

表头：GSEA结果总览

Upregulated in class：该基因集在某一分组中高表达（如：表格表示在ALL组中高表达）

GeneSet：在进行比对得分时，预先生成的基因集

Enrichment Score（ES）：自定义基因集在预先生成的基因集中的富集分数

Normalized Enrichment Score：归一化后的ES值

Nominal p-value：置换检验得到的P值，判断结果可信度；

FDR q-value：多重假设检验FDR方法校正后的p值；

FWER p-Value：Bonferonni校正后的p值；

2.2 ES图形解读

上方红框：ES值累加过程中的增减变化曲线；

中间红框：目标基因集成员（黑色竖线标识）在所有基因排序中的位置；

下方红框：按指标从高到低排序的基因，指标的真实值（这里为差异倍数的log2值）

2.3 GSEA详细结果解读

第1列：基因名称；

第2列：来自于基因集中的基因名称；

第5列：该基因在自定义排序列表中的位置

第6列：该基因排序量的比值，如foldchange值

第7列：积累的ES值

第8列：该基因是否属于核心基因，“Yes”表示对该基因集的ES做出了主要贡献的基因

2.4 热图结果解读

该图展示的是位于该基因集下的基因在所有样本表达量的分布。

每一列代表一个样本，每一行代表一个基因，基因表达量从低到高，颜色表达量从蓝色过渡到红色。

3 表格结果解读

第1列：基因集名称

第2列：链接，复制至网页打开可进入基因集的详细信息

第3列：基因集里的基因数

4~5列：富集分数ES值，以及校正后（Z score法）的ES值

第6列：原始P值；

第7列：用FDR法矫正后的p value，即Q value

第8列：富集在该基因集中的基因名称

Q1. GSEA运行出错：

①物种选错；

②版本选择错误。物种为智人或小鼠时，提供基因symbol号及Ensembl ID两种分析数据。其中symbol号对应GSEA_v2023.2相关版本；Ensembl ID对应Ensembl相关版本。请仔细根据实际表格数据进行选择。

③分组不能用空格，请删掉或用下划线代替；

④工具使用一次，只能进行一对比较，即比较组只有一组。

⑤表达量文件中第一列gene id 类型跟平台提供的不一致；可以点击“预览参考文件”参考平台的gene id类型（一般是ensembl id）；

Q2. 为什么提示完成，下载却没有图片？

下载无结果，可能原因是分析数据类型选错或者数据错误（比如表达量数据中掺杂里些英文字符串等）。

其中GSEA工具中人、小鼠分析数据可使用symbol及相关数据库；如果表达量文件中，geneid为gene name，则“分析数据”需要选择symol。

Q3. 比较组应该怎么整理？

数据整理时，需按照对照组在前，处理组在后的格式。比较时，以处理组比较对照组。

如示例：

第一列是ALL（对照组），第二列是AML（处理组）

Q4. 提交时报错常见问题：

1.提交时显示X行X列空行/无数据，请先自查表格中是否存在空格或空行,需要删掉。

2.提交时显示列数只有1列，但表格数据不止1列：列间需要用分隔符隔开，先行检查文件是否用了分隔符。

其它提示报错，请先自行根据提示修改；如果仍然无法提交，可通过左侧导航栏的“联系客服”选项咨询OmicShare客服。

Q5.下载图片不清晰？

静态GSEA工具同时提供位图（png）和矢量图(pdf)两种类型的图片。矢量图可以无限放大、不会出现模糊的情况。

Q6.结果图片可以修改吗？如何修改？

静态工具输出的图片无法在线修改，在结果下载包中有提供位图（png）和矢量图（pdf）两种类型图片，如需修改，可以将pdf图导入AI（Adobe Illustrator）等软件进行调整。

引用OmicShare Tools的参考文献为：

Mu, Hongyan, Jianzhou Chen, Wenjie Huang, Gui Huang, Meiying Deng, Shimiao Hong, Peng Ai, Chuan Gao, and Huangkai Zhou. 2024. “OmicShare tools: a Zero‐Code Interactive Online Platform for Biological Data Analysis and Visualization.” iMeta e228. https://doi.org/10.1002/imt2.228

案例1：

发表期刊：Journal of Cellular Physiology

影响因子：5.6

发表时间：2022

FIGURE 5 Enrichment analysis identifies Schwann cell subtype characteristics. (b,c) GSEA enrichment plots of Schwann cell subtype 3 compared with other Schwann cell subtypes for the (b) Gene Ontology (GO) term DNA replication origin binding and (c) Kyoto Encyclopedia of Genes and Genomes (KEGG) pathway DNA replication

引用方式：We thank GENE DENOVO Company for bioinformatics analysis support with OmicShare Analysis Platform (http://www.omicshare.com/tools).

参考文献：

Zhang R, Chen Q, Huang L, et al. Single‐cell analyses reveal the differentiation shifts of Schwann cells in neonatal rat sciatic nerves[J]. Journal of Cellular Physiology, 2022, 237(1): 637-646.

案例2：

发表期刊：Ecotoxicology and Environmental Safety

影响因子：6.8

发表时间：2023

Fig. 7. The gene expressions of systemic lupus erythematosus term (ko05322) in GSEA analysis. GSEA enrichment diagram of systemic lupus erythematosus in experiment A (AC). GSEA enrichment diagram of systemic lupus erythematosus in experiment B (BD).

引用方式：

The sort order of all genes was set up as Signal2Noise method. Other parameter settings were default values. GSEA was performed using OmicShare tools (https://www.omicshare.com/tools).

参考文献：

Yu H, Song W, Chen X, et al. Transcriptomic analysis reveals up-regulated histone genes may play a key role in zebrafish embryo-larvae response to Bisphenol A (BPA) exposure[J]. Ecotoxicology and Environmental Safety, 2023, 252: 114578.

案例3：

发表期刊：Cell Death & Disease

影响因子：9.0

发表时间：2023

Fig. 4 Transcriptional trajectories from healthy to injured PTCs and proteomics analysis revealed extensive cytoskeletal remodeling events in AKI-PTCs. G GSEA analysis of differentially expressed proteins in the phosphoproteomics, and the most significantly enriched pathway in the KEGG was the regulation of actin cytoskeleton pathway, in which Arpc1b is also involved.

引用方式：

Gene enrichment analysis is a combination of GO and KEGG, using the clusterProfiler package and the Omicshare platform (https://www.omicshare.com/) for Gene Set Enrichment Analysis (GSEA) analysis.

参考文献：

Chen Z, Li Y, Yuan Y, et al. Single-cell sequencing reveals homogeneity and heterogeneity of the cytopathological mechanisms in different etiology-induced AKI[J]. Cell Death & Disease, 2023, 14(5): 318.

案例4：

发表期刊：Animals

影响因子：3.0

发表时间：2022

Figure 4. Functional gene screening and functional verification. (A) GSEA-KEGG analysis of the transcriptome. A pathway of positive enrichment score is up-regulated, whereas a pathway of negative enrichment score is down-regulated. (B) Gene expression heatmap of the fatty acid metabolic pathway. The color key (from blue to red) of abundance value indicated low to high expression levels.

引用方式：

Gene expression level was measured by Fragments per Kilobase per Million Mapped Fragments (FPKM) [17], the most commonly used method for estimating gene expression abundance. DEGSeq [18] was used to analyze DEGs (|Fold Change| > 2 and p-value < 0.01).The Principal Component Analysis (PCA), Gene Ontology (GO) term enrichment analysis, Kyoto Encyclopedia of Genes and Genomes (KEGG) pathway enrichment analysis and GSEA were performed using Omicshare, a real-time interactive online data analysis platform (p-value < 0.05) (http://www.omicshare.com (accessed on 18 February 2022)) [19].

参考文献：

Pan H, Huang T, Yu L, et al. Transcriptome Analysis of the Adipose Tissue of Luchuan and Duroc Pigs[J]. Animals, 2022, 12(17): 2258.

案例5：

发表期刊：PeerJ

影响因子：2.7

发表时间：2022

Figure 5 GSEA analysis of pathways genes derived from CaOx stones and Control patients mostly involved in. (A) GSEA analyses indicated that Control group was significantly correlated with the WNT signaling pathway in GSE73680 datasets.

引用方式：

GO and KEGG analysis were applied through Omicshare Tools (https://www.omicshare.com/tools/). Protein-protein interactions was explored via the STRING database. Gene Set Enrichment Analysis (GSEA) was conducted by Omicshare Tools and the venn diagram was conducted through (http://bioinformatics.psb.ugent.be/research).

参考文献：

Yang Y, Hong S, Lu Y, et al. CAV1 alleviated CaOx stones formation via suppressing autophagy-dependent ferroptosis[J]. PeerJ, 2022, 10: e14033.

GSEA静态工具