差异分析就是计算两组样本之间差异表达的基因。通常我们定义基因表达量差异倍数>2、并且P值(或Q值)小于0.05为显著差异表达的基因,具有统计学意义。这个阈值可以自行调整。

注意:表格文件中的数据值之间务必用制表符隔开(tab符),可以在Excel中打开然后另存为以制表符分隔的文本文件(*.txt),另外,对于离散系数,如果有组内重复则根据重复值计算 离散系数不起作用, 如果无重复,则按填的离散系数计算,不填默认为0.01 。详细案例请点击案例演示。


基因count表格文件:文件必须为txt格式。可以选择在excel中将数据打开,然后另存为"文本文件(制表符分隔)(*.txt)"。输入的文件第一行为样本ID,第一列为基因ID,表中的数值为每个样本的基因count数(即reads数目)。
列出要进行差异分析的比较组的文件。文件必须为txt格式。有两列,在进行差异分析时是第二列比上第一列。如第一列是A(组),第二列是B(组),则为B组比上A组。一行为一个比较组。
定义分组信息。文件必须为txt格式。第一列为样本名,第二例为所在的组名。注意:即使没有实验重复,依然需要填写这个文件(1个样本为1组)。
*


用来判断差异显著性的统计检验值,可选择P值或Q值。P值为负二项分布计算得到,Q值是P值经过多重检验校正得到的。


即上面所选P值或Q值的阈值,通常选择0.05,也可以根据实验具体情况适当降低或提高阈值,如0.01、0.001等。


两组样本基因表达量的差异倍数,在基因差异表达分析中一般设定2倍。差异倍数大于设定阈值并且检验阈值(P值或Q值)小于设定阈值的基因定义为差异表达基因。
用于描述实验重复间的表达量变异程度(离散程度),是表达差异分析检验的基础数值。在有实验重复的情况下,离散系数由实验重复直接估算,该参数不需要填写。在没有实验重复的情况下,则需要人为设定离散系数,以便软件可以完成检验。如果你的实验样本无实验重复,可根据自己材料的特点设定离散系数。一般而言,实验重复间的差异越大,离散系数越大。edgeR软件给出的建议为:人类样本设定为0.4,遗传背景相似的模式生物设定为0.1,技术重复设定为0.01,其他情况默认为0.01。

 任务完成后发邮件通知我

 使用一次消耗奥币数 10