edgeR/DESeq2差异分析


*
选择文件 示例文件
基因count表格文件:文件必须为txt格式。可以选择在excel中将数据打开,然后另存为"文本文件(制表符分隔)(*.txt)"。输入的文件第一行为样本ID,第一列为基因ID,表中的数值为每个样本的基因count数(即reads数目)。
*
选择文件 示例文件
定义分组信息。文件必须为txt格式。第一列为样本名,第二例为所在的组名。注意:即使没有实验重复,依然需要填写这个文件(1个样本为1组)。
*
选择文件 示例文件
列出要进行差异分析的比较组的文件。文件必须为txt格式。有两列,在进行差异分析时是第二列比上第一列。如第一列是A(组),第二列是B(组),则为B组比上A组。一行为一个比较组。
*
*
用来判断差异显著性的统计检验值,可选择P值或Q值。P值为负二项分布计算得到,Q值是P值经过多重检验校正得到的。
即上面所选P值或Q值的阈值,通常选择0.05,也可以根据实验具体情况适当降低或提高阈值,如0.01、0.001等。
两组样本基因表达量的差异倍数,在基因差异表达分析中一般设定2倍。差异倍数大于设定阈值并且检验阈值(P值或Q值)小于设定阈值的基因定义为差异表达基因。
在RNA-seq中,基因表达量(RPKM)体现为某基因表达量占总RNA表达量的比值。由于不同样本的细胞中mRNA总量有可能不同,导致RPKM值估计存在误差。因此,edgeR 可以推算校正因子,对此类误差进行校正。默认值设定为:否。
用于描述实验重复间的表达量变异程度(离散程度),是表达差异分析检验的基础数值。在有实验重复的情况下,离散系数由实验重复直接估算,该参数不需要填写。在没有实验重复的情况下,则需要人为设定离散系数,以便工具可以完成检验。如果你的实验样本无实验重复,可根据自己材料的特点设定离散系数。一般而言,实验重复间的差异越大,离散系数越大。edgeR工具给出的建议为:人类样本设定为0.4,遗传背景相似的模式生物设定为0.1,技术重复设定为0.01,其他情况默认为0.01。
*ProVIP免费
*VIP免费
*当前账户剩余0次

了解该工具的原理与详细解析,请点击>>

 

功能:

差异分析就是计算两组样本之间差异表达的基因。通常我们定义基因表达量差异倍数>2、并且P值(或Q值)小于0.05为显著差异表达的基因,具有统计学意义。这个阈值可以自己调整。该差异分析工具是参照软件edgeR(http://www.bioconductor.org/packages/release/bioc/html/edgeR.html)和DESeq2(http://www.bioconductor.org/packages/release/bioc/html/DESeq2.html)对两组样本间的基因差异显著性进行分析的。

 

 

输入:

①矩阵表格文件格式说明:支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式,同样支持旧版Excel的xls(Excel 97-2003 )格式。

基因count表格文件:注意输入的务必是基因的read count数,不是基因表达量RPKM或FPKM值!

文件第一行为样本ID,第一列为基因ID,表中的数值为每个样本的基因count数(即reads数目)。

生物云平台

分组信息文件:定义分组信息。第一列为样本名,第二例为所在的组名。注意:即使没有实验重复,依然需要填写这个文件(1个样本为1组)。

生物云平台

组间比较文件:列出要进行差异分析的比较组的文件。有两列,在进行差异分析时是第二列比上第一列。如第一列是A(组),第二列是B(组),则为B组比上A组。一行为一个比较组。

生物云平台

 

参数:

①软件选择:edgeR/DESeq2。选择一个软件进行差异分析。

②检验值:用来判断差异显著性的统计检验值,可选择P值或Q值。P值为负二项分布计算得到,Q值是P值经过多重检验校正得到的。

③检验阈值:即上面所选P值或Q值的阈值,通常选择0.05,也可以根据实验具体情况适当降低或提高阈值,如0.01、0.001等。

④差异倍数:两组样本基因表达量的差异倍数,在基因差异表达分析中一般设定2倍。差异倍数大于设定阈值并且检验阈值(P值或Q值)小于设定阈值的基因定义为差异表达基因。

⑤离散系数:用于描述实验重复间的表达量变异程度(离散程度),是表达差异分析检验的基础数值。在有实验重复的情况下,离散系数由实验重复直接估算,该参数不需要填写。在没有实验重复的情况下,则需要人为设定离散系数,以便软件可以完成检验。如果你的实验样本无实验重复,可根据自己材料的特点设定离散系数。一般而言,实验重复间的差异越大,离散系数越大。edgeR软件给出的建议为:人类样本设定为0.4,遗传背景相似的模式生物设定为0.1,技术重复设定为0.01,其他情况默认为0.01。

⑥校正因子:在RNA-seq中,基因表达量(RPKM)体现为某基因表达量占总RNA表达量的比值。由于不同样本的细胞中mRNA总量有可能不同,导致RPKM值估计存在误差。因此,edgeR 可以推算校正因子,对此类误差进行校正。默认值设定为:否。

 

输出:
1. A-vs-B.DE.volcano.pdf:差异表达基因火山图(矢量图)
2. A-vs-B.DE.volcano.png:差异表达基因火山图(位图)
3. A-vs-B.all.xls:差异表达基因总表
4. A-vs-B.filter.xls:显著差异表达基因表(达到显著差异阈值)
5. diff.stat.pdf:所有比较组的差异表达基因柱状图(矢量图)

6. diff.stat.png:所有比较组的差异表达基因柱状图(位图)
7. diff.stat.xls:所有比较组的差异表达基因统计表

 

示例文件: 基因Count表格文件   组间比较文件   分组信息文件

输入和参数设置:

输出结果:

1、结果文件夹所有结果文件:



2、结果文件夹中的 所有比较组的差异表达基因柱状图:

 

3. 两组样本差异分析火山图:

 

Q1. edgeR/DESeq2差异分析与配对edgeR/DESeq2差异分析工具区别?

 

配对edgeR/DESeq2差异分析工具会在保留样本配对关系前提下进行分析。

点击前往配对edgeR/DESeq2差异分析工具>>

 

 

Q2.为什么任务出错?

 

差异工具出错最最常见原因有以下两点:

    ①上传的数据不是基因的read count数。

常有用户提交FPKM/RPKM值或者一些带有小数点的数值进行分析,这样是会导致任务出错的,注意,该工具仅适用于reads数。

 

    ② 文件之间信息不对应。

在整理文件时,需要注意三个文件间样本名、分组等信息务必对应。

下面给大家举个反例!基因count表中,样本名为A1-C2,而在分组文件中,样本名是M1、M2..两个表格数据信息明显是不对应的。

 

 

 

Q3.没有实验重复,可以使用差异分析工具吗?

 

没有实验重复,可以使用edgeR进行差异分析。

 

 

Q4:为什么必须上传read count数?

A:转录组测序本质是测一条条mRNA的序列,利用不同mRNA的测序量来估计基因的表达量。这种测序引入的随机误差,不符合正态分布,而是接近于一些更复杂的混合分布,只有用原始的reads数才能正确估计测序相关的随机误差。

 

 

Q5. 提交时报错常见问题:

 

1.提交时显示X行X列空行/无数据,请先自查表格中是否存在空格或空行,需要删掉。

2.提交时显示列数只有1列,但表格数据不止1列:列间需要用分隔符隔开,先行检查文件是否用了分隔符。

其它提示报错,请先自行根据提示修改;如果仍然无法提交,可通过左侧导航栏的“联系客服”选项咨询OmicShare客服。

 

 

Q6.结果图片可以修改吗?如何修改?

 

静态工具输出的图片无法在线修改,在结果下载包中有提供位图(png)和矢量图(pdf)两种类型图片,如需修改,可以将pdf图导入AI(Adobe Illustrator)等软件进行调整。

案例1

 

发表期刊:International Journal of Molecular Sciences

影响因子:5.6

发表时间:2023

 

Figure 2. Numbers of DEGs in diverse pairwise comparisons (a) and Venn diagram showing the common and unique DEGs among different pairwise comparisons (b).

 

引用方式:GO and KEGG enrichment analyses of DEGs were performed using OmicShare tools in 2021, a free online platform for data analysis (http://www.omicshare.com/tools, 16 August 2022).

 

参考文献:

Guo H, Zhong Q, Tian F, et al. Transcriptome analysis reveals putative induction of floral initiation by old leaves in tea-oil tree (Camellia oleifera ‘changlin53’)[J]. International Journal of Molecular Sciences, 2022, 23(21): 13021.

 

案例2

 

发表期刊:Scientia Horticulturae

影响因子:4.3

发表时间:2023

 

Fig. 5. Expression patterns analysis of CiB3 genes in different tissues and developmental stages. C Differential analysis of transcriptome data of CiB3s at different developmental stages of kernels.

 

引用方式:The count values of CiB3s expression at four different pecan developmental stages were analyzed differentially using the OmicShare Tools online website (https://www.omicshare.com/tools/Home/Soft/getsoft). Furthermore, Venn diagrams were drawn for genes with TPM values above 10 in the B3 superfamily of different tissues.

 

参考文献:

Wang L, Chen F, Lan Y, et al. Genome-wide identification of B3 superfamily in pecan (Carya illinoensis): In silico and experimental analyses[J]. Scientia Horticulturae, 2023, 307: 111533.

 

案例3

 

发表期刊:Animals

影响因子:3.0

发表时间:2022

 

 

Figure 2. Identification of DEGs. (A) The statistical analysis of DEGs between Duroc and Luchuan adipose. (B) The volcano map of DEGs. The gene with p-value < 0.01 and log2 Fold Change > 1 is marked in red; the gene with p-value < 0.01 and log2 Fold Change < 1 is marked in blue.

 

引用方式:

Gene expression level was measured by Fragments per Kilobase per Million Mapped Fragments (FPKM) [17], the most commonly used method for estimating gene expression abundance. DEGSeq [18] was used to analyze DEGs (|Fold Change| > 2 and p-value < 0.01).The Principal Component Analysis (PCA), Gene Ontology (GO) term enrichment analysis, Kyoto Encyclopedia of Genes and Genomes (KEGG) pathway enrichment analysis and GSEA were performed using Omicshare, a real-time interactive online data analysis platform (p-value < 0.05) (http://www.omicshare.com (accessed on 18 February 2022)) [19].

 

参考文献:

Pan H, Huang T, Yu L, et al. Transcriptome Analysis of the Adipose Tissue of Luchuan and Duroc Pigs[J]. Animals, 2022, 12(17): 2258.

 

案例4

 

发表期刊:Crops

发表时间:2023

Figure 3. Statistics of differentially expressed genes in response to BPH stress.

 

引用方式:The OmicShare online trend analysis tool (https://www.omicshare.com/tools/Home/Soft/trend) (accessed on 15 May 2022) was used to analyze the trends of the above-mentioned differential genes.

 

参考文献:

Shi L, He H, Zhang J, et al. Comparative transcriptomic analysis reveals variable responses to the brown planthopper Nilaparvata lugens in different rice cultivars[J]. Crops, 2023, 3(1): 40-52.