目前CHIP的peak检测,我们公司用的软件是MACS,这个软件也是这个领域使用比较广的软件。以下是关于这个软件和参数的一些资料。 (1)一些参考文档: 关于这个软件的参数,我推荐Plob的这篇文章: http://www.plob.org/2014/05/08/7227.html 这篇文章非常详细介绍了MACS的使用方法和要注意的参数。 (2)方法学文章 如果关注更多细节,可以阅读这篇MACS的方法学文章: Zhang, Yong, et al. "Model-basedanalysis of ChIP-Seq (MACS)." Genome biology 9.9 (2008): R137. (3)参考的protocol Nature protocol 有篇这个流程使用的文章(见附件,可下载),你也可以参考下。 Feng, Jianxing, et al. "IdentifyingChIP-seq enrichment using MACS." Nature protocols 7.9 (2012): 1728-1740.. 这篇文章值得详细阅读一下。这篇文章使用三种CHIP数据进行测试性分析,并强调了对应三种数据所需的分析参数的不同。如果你理解了这篇文章,大部分CHIP数据的检测应该没有问题了。 这三种CHIP类型分别是:转录组因子FoxA1(经典的转录因子)、组蛋白H3K4me3(有较强的富集信号,但一般在局部富集),H3K36me3(广泛富集,但富集信号较弱) 简要说来,在默认设置下,MACS的这个软件是通过判断某个区域的测序深度是否高于周边(如果没有input对照)或高于input对照。如果yes,说明这个区域存在信号峰(peak), 那么说明这个区域有蛋白结合对。但软件一般要先预估峰的宽度,以及由此找到峰的中心。如果是转录因子,使用双峰模型预估是没有问题的。但如果是组蛋白,一般peak可能很宽。因为转录因子结合是离散结合的,一般峰很窄。但如果组蛋白,连续几Kb或几十kb持续修饰是完全可能的。那么使用Macs的双峰模型,估算这个值就容易出错。所以,有两个参数要特殊注意: 1)预设峰跨度 –nomodel –shiftsize=73bp 如果是组蛋白数据,那么就放弃让软件去预估峰宽。所以声明:nomodel。而1个核小体的对应的DNA长度是146bp,所以组蛋白结合信号的最小距离单位也是146bp(146bp才可能出现一次),那么将shiftsize设定为这个长度的一半就ok了。 2)显著性的P value。 Macs的默认P value是 10E-5。但这个值应该根据实际情况调整。例如H3K36me3的富集信号较弱,显著性显然没有转录组因子那么强。所以在Nature protocol 那篇文章中,使用的P value 阈值是10E-3。在执行实际项目的时候,我们也发现对于某些转录组因子分子伴侣蛋白的CHIP数据(记住,这些蛋白是先与转录因子结合,而不是直接结合DNA),由于其结合能力较为弱,所以peak的显著性也比较弱,使用 10E-5 是不合理的。那么选用多大的参数合理呢? 可以查阅文献,看看是否有哪些promoter是已经报道这个蛋白可以结合的。然后查看这些已知可结合的promoter的结合强度(p value)。根据这些已知信息,来制定P value的阈值过滤标准,是更加合理的。 就这些了,希望这些解释对你有帮助。
|