差异分析





基因count表格文件:文件必须为txt格式。可以选择在excel中将数据打开,然后另存为"文本文件(制表符分隔)(*.txt)"。输入的文件第一行为样本ID,第一列为基因ID,表中的数值为每个样本的基因count数(即reads数目)。 (基迪奥表达量总表:)如果你在基迪奥进行了RNA-seq测序,也可直接输入结果文件夹中的表达量总表(all.genes.expression.xls),这个表中包括了基因的注释信息(Nr、GO、KEGG)。这样在得到的差异基因表中就会有相应的基因注释信息。如果你在基迪奥进行了RNA-seq测序,也可直接输入结果文件夹中的表达量总表(all.genes.expression.xls),这个表中包括了基因的注释信息(Nr、GO、KEGG)。这样在得到的差异基因表中就会有相应的基因注释信息
列出要进行差异分析的比较组的文件。文件必须为txt格式。有两列,在进行差异分析时是第二列比上第一列。如第一列是A(组),第二列是B(组),则为B组比上A组。一行为一个比较组。
定义分组信息。文件必须为txt格式。第一列为样本名,第二例为所在的组名。注意:即使没有实验重复,依然需要填写这个文件(1个样本为1组)。
*


用来判断差异显著性的统计检验值,可选择P值或Q值。P值为负二项分布计算得到,Q值是P值经过多重检验校正得到的。


如果你在基迪奥进行了RNA-seq测序,也可直接输入结果文件夹中的表达量总表(all.genes.expression.xls),这个表中包括了基因的注释信息(Nr、GO、KEGG)。这样在得到的差异基因表中就会有相应的基因注释信息


即上面所选P值或Q值的阈值,通常选择0.05,也可以根据实验具体情况适当降低或提高阈值,如0.01、0.001等。


两组样本基因表达量的差异倍数,在基因差异表达分析中一般设定2倍。差异倍数大于设定阈值并且检验阈值(P值或Q值)小于设定阈值的基因定义为差异表达基因。


在RNA-seq中,基因表达量(RPKM)体现为某基因表达量占总RNA表达量的比值。由于不同样本的细胞中mRNA总量有可能不同,导致RPKM值估计存在误差。因此,edgeR 可以推算校正因子,对此类误差进行校正。默认值设定为:否。
用于描述实验重复间的表达量变异程度(离散程度),是表达差异分析检验的基础数值。在有实验重复的情况下,离散系数由实验重复直接估算,该参数不需要填写。在没有实验重复的情况下,则需要人为设定离散系数,以便软件可以完成检验。如果你的实验样本无实验重复,可根据自己材料的特点设定离散系数。一般而言,实验重复间的差异越大,离散系数越大。edgeR软件给出的建议为:人类样本设定为0.4,遗传背景相似的模式生物设定为0.1,技术重复设定为0.01,其他情况默认为0.01。

  任务完成后发邮件通知我

 使用一次消耗奥币数 10



差异分析工具的使用与解读详细教程

功能:
差异分析就是计算两组样本之间差异表达的基因。通常我们定义基因表达量差异倍数>2、并且P值(或Q值)小于0.05为显著差异表达的基因,具有统计学意义。这个阈值可以自己调整。该差异分析工具是参照软件edgeR(http://www.bioconductor.org/packages/release/bioc/html/edgeR.html)对两组样本间的基因差异显著性进行分析的。


输入:

①矩阵表格文件格式说明:可在Excel中打开数据文件,并保存为制表符分隔的文本文件(*.txt)。

基因count表格文件:文件必须为txt格式。可以选择在excel中将数据打开,然后另存为"文本文件(制表符分隔)(*.txt)"。输入的文件第一行为样本ID,第一列为基因ID,表中的数值为每个样本的基因count数(即reads数目)。 (基迪奥表达量总表:)如果你在基迪奥进行了RNA-seq测序,也可直接输入结果文件夹中的表达量总表(all.genes.expression.xls),这个表中包括了基因的注释信息(Nr、GO、KEGG)。这样在得到的差异基因表中就会有相应的基因注释信息。

生物云平台

组间比较文件:列出要进行差异分析的比较组的文件。文件必须为txt格式。有两列,在进行差异分析时是第二列比上第一列。如第一列是A(组),第二列是B(组),则为B组比上A组。一行为一个比较组。

生物云平台

分组信息文件:定义分组信息。文件必须为txt格式。第一列为样本名,第二例为所在的组名。注意:即使没有实验重复,依然需要填写这个文件(1个样本为1组)。

生物云平台


参数:

①检验值:用来判断差异显著性的统计检验值,可选择P值或Q值。P值为负二项分布计算得到,Q值是P值经过多重检验校正得到的。

②检验阈值:即上面所选P值或Q值的阈值,通常选择0.05,也可以根据实验具体情况适当降低或提高阈值,如0.01、0.001等。

③差异倍数:两组样本基因表达量的差异倍数,在基因差异表达分析中一般设定2倍。差异倍数大于设定阈值并且检验阈值(P值或Q值)小于设定阈值的基因定义为差异表达基因。

④离散系数:用于描述实验重复间的表达量变异程度(离散程度),是表达差异分析检验的基础数值。在有实验重复的情况下,离散系数由实验重复直接估算,该参数不需要填写。在没有实验重复的情况下,则需要人为设定离散系数,以便软件可以完成检验。如果你的实验样本无实验重复,可根据自己材料的特点设定离散系数。一般而言,实验重复间的差异越大,离散系数越大。edgeR软件给出的建议为:人类样本设定为0.4,遗传背景相似的模式生物设定为0.1,技术重复设定为0.01,其他情况默认为0.01。

⑤校正因子:在RNA-seq中,基因表达量(RPKM)体现为某基因表达量占总RNA表达量的比值。由于不同样本的细胞中mRNA总量有可能不同,导致RPKM值估计存在误差。因此,edgeR 可以推算校正因子,对此类误差进行校正。默认值设定为:否。


输出:
1. A-vs-B.count.tmp:比较组的基因ID及read count数
2. A-vs-B.DE.volcano.pdf:差异表达基因火山图(矢量图)
3. A-vs-B.DE.volcano.png:差异表达基因火山图(标量图)
4. A-vs-B.edgeR.all.xls:差异表达基因总表
5. A-vs-B.edgeR.filter.xls:显著差异表达基因表(达到显著差异阈值)
6. edgeR.stat.h.png:所有比较组的差异表达基因柱状图(横向)
7. edgeR.stat.v.png:所有比较组的差异表达基因柱状图(纵向)
8. edgeR.stat.xls:所有比较组的差异表达基因统计表

示例文件: 基因Count表格文件   组间比较文件   分组信息文件
生物云平台
输出结果:

1、结果文件夹所有结果文件:

生物云平台

2、结果文件夹中的 所有比较组的差异表达基因柱状图(纵向):

生物云平台