本次在线交流问答整理如下:
问1:在没有重复实验的情况下,用RPKM要怎么做检验呢? 答:如果要用泊松分布做差异分析模型的话,必须要用reads count的。只有RPKM值的话,可以用RPKM的公式反推reads count数,再做检验。
问2:Deseq是怎么控制reads多重比对的? 答:Deseq只是一个差异分析的软件,多重比对的分配是在Deseq之前的。Deseq是输入的数据是已经分配好的reads count,然后用于分析,但是如果reads 多重比对要怎么处理的,那么要使用reads分配分析软件,例如cufflinks或Rsem软件。所以Deseq是不能处理多重比对的,应该之前用软件进行预处理。一般来说多重比对有两种方案: 1)如果一个reads多重比对的话,可以把多重比对的reads删除掉, 2)使用cufflinks 和 Rsem分配比对结果bam文件; 如果不关心可变剪切的差异,策略1也是合理的。如果关心可变剪切,则建议策略2。
问3:Deseq、edgeR和cuffdiff在处理多重比对reads的时候差别是什么? 答:Deseq与edgeR只是一个差异分析的软件,就是类似于做方差分析的软件一样。但cufflinks是个软件包,从数据比对到reads count 到差异分析都全包了,所以如何处理多重比对的reads是与 Deseq或者edgeR是无关的。可以用cufflinks或者RSEM来做多重比对的处理,然后做差异分析,则可以继续选用 Cuffdiff 、Deseq或 edgeR。
问4:用TMM标准化之后再用基于泊松分布的差异分析算法,计算差异基因靠谱吗? 答:TMM标准化的确是独立的方法。既然有生物学重复就不建议用泊松分布模型。因为TMM是edgeR的归一化算法,建议后续的差异分析继续使用edgeR。泊松分布可以做差异分析,但是这个方法无法估算生物样本之间的个体差异。所以他最后是相当于低估了P值,统计结果是存在较大假阳性。
问5:如果想比较环境对基因表达的差异,分别从两个地区各取三株样品,比较组间差异可以吗? 答:可以。这个方法是可行的,但是有一点,目前我认为RNA-seq最大问题是如果只测三个生物学重复,对模式生物来说还是OK的,比如小鼠、拟南芥,他们个体差异很小。我们知道个体差异本来就是组内差异的一部分。所以对于模式生物来说一开始个体差异是非常小的。但是如果从两个区域取样的话,而且非模式生物学样本,例如林木、昆虫,可能个体差异会比较大,容易得到组间差异不显著的结论。所以想得到一些更稳定的指标的话,建议用混样作为生物学重复来做差异比较将会更加稳定。
用混样作为样本的逻辑是这样的,比如在某个区域取到30个样本,然后把每10个样本混成一个池,比如前十个,中间十个,后面十个,构成三个样本池,这个时候其实这三个样本池还是不一样的。生物学重复本身就是假设是抽样,从一个大样本中抽样,来计算抽样误差多大,如果将个体作为重复的话,这种个体差异比较大,这样就导致抽样误差比较大。但是如果以群体作为样本的话,因为群体的均值更加稳定,得到样本间差异将更小,所以我们才会建议所有样本混合成若干池,这样减少抽样误差。
查看完整问答整理戳这里下载:
|