一些人也使用Deseq或edgeR来进行差异peak的分析。当然,这些软件最初被用于RNA-seq分析。但也有一些软件使用这个软件进行CHIP-seq的差异分析。例如:
Maze I, Feng J, Wilkinson MB, et al. Cocaine dynamically regulatesheterochromatin and repetitive element unsilencing in nucleus accumbens.
PNAS 2011;108(7):3035, http://www.pnas.org/content/108/7/3035.full
当然RNA-seq分析的话,需要分析的区间都是已经定义好的了(基因编码区)。但CHIP-seq的差异比较区域却没有预先设定好。建议可以采取的策略有两种: (1)采用区间扫描的方法。如果将基因组分为一个个宽度为300bp区间,逐个进行区间差异比较。实际上,类似的软件有“Medips”。这个软件用于Medips数据分析,默认也是进行区间差异扫描(可选择edgeR进行差异分析) http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3892689/ (2)以上策略1有个问题,这个区间的数量过多。例如人类的基因组是3G,那么300bp的区间就有10M个。那么,多重检验校正后,PDR很难得到显著的水准(就是存在过校正的问题)。所以建议的策略是事先找到候选的peakregion,然后进行treatment和 control的比较。 所以,我的建议是: 1)使用Macs进行 CHIP sample和 input的比较,找到treatment和control各自的peak; 2)将treatment和control的peaks区间合并。如果是overlap的peaks,则合并为一个peak。也就是找两个chipsample peaks区间的并集; 3)以peaks区间的并集为基础,然后使用Deseq和edgeR进行差异分析。 备注:这个策略对有生物学重复或无生物学重复的数据,都是有效的。
|