|
目前,ATAC-seq是表观研究的最新手段和高分文章的利器,文章数量以每年翻一倍的速度快速增长。
近期我们推出了多篇ATAC的相关文章,大家的学习热情高涨,接下来,将分享ATAC-seq的具体分析内容。 并且基迪奥ATAC免费送的活动还在进行中。为了感谢活动前期大家的积极参与,ATAC-seq免费建库测序活动的名额,特别增加10位,一共20个免费名额。活动不再设立门槛,大家抓紧机会参加呀,毕竟基迪奥做免费的活动不多…
参与方式
活动时间:2019年3月28日至5月15日
第一步
扫描二维码,填写信息报名参加活动:
(长按图片识别二维码)
第二步
随机抽取20个不同单位各一位幸运客户赠送2例ATAC-seq样本建库测序。 在促销活动期间签单,还有优惠!
图1 ATAC-seq的基础分析流程
比对分析——对ATAC-seq数据的质检
在完成基因组比对后,要对ATAC-seq的数据完成两个基本的统计,分别是1)测序片段长度分布;2)数据在转录起始位点的信号强度。这两个指标是将直接反应了ATAC-seq的数据质量是否合格。
图2 ATAC-seq的两个关键质控标准
1ATAC-seq测序片段长度分布
如果统计ATAC-seq数据的测序片段长度(即双末端测序成对reads 的5’端在基因组上的距离)分布,理想情况下应该如图1b——由一系列波浪式样的若干个峰信号构成,这些不同信号峰的数据,实际上来自开放性程度高低各异的区域。
第1个峰
最左侧的峰是测序片段长度<100bp的片段构成。这些片段就是来自基因组开放的区域。由于基因组开放的区域没有核小体结合,因此转座酶可以随意插入(图1a),这些区域就被切割为了短片段的DNA碎片。
这些DNA短碎片的数据,构成了图2b的左起第一个峰。值得注意的是,在这个峰上有时候还会观察到若干个锯齿状的小峰(10bp左右宽度)。这是由于DNA是双螺旋结构,一圈大概10个碱基对。双螺旋的DNA也会彼此相互保护,转座酶易于切割靠近外围碱基,所以最终切割的片段长度倾向于是DNA螺旋结构长度的整倍数。
第2个峰
第二个峰对应测序长度在200bp左右的片段,这是单聚核小体对应的DNA片段。当转座酶在核小体上下游切割DNA,得到的DNA片段大概就是200bp(DNA绕核小体一圈是约147bp,加上一部分额外残留的片段)。
第3~n个峰
随着染色质的核小体结构变得更加致密,某些相邻的核小体间的DNA是没有空隙的。转座酶就无法将这些染色质切割到单核小体状态,而是只能切割为核小体二聚物(两个核小体紧密聚合在一起)、三聚物、四聚物……,则对应测序片段长度为400,600,800的峰。
当然,如果是染色质完全关闭的区域,一整片核小体都抱团成簇,则整个区域都无法被切割。那么这些区域的DNA就以大片段存在(>1kb),在测序的建库过程中将会被过滤掉。
小结
小于100bp的峰,对应染色质开放区(Nucleosome free)的数据。200bp以及之后的峰的数据,对应核小体结合区(Nucleosome bound)的数据。 2转录起始位点(TSS)附近的信号分布
转录活跃的基因的TSS往往处于开放状态,以保证转录因子可以结合。所以,如果我们统计Nucleosome free的数据(即插入片段长度<100bp的数据)在TSS周边的信号。其在TSS位点附近有个明显的峰(图2c 黑线)。
而如果我们统计Nucleosomebound的数据(即插入片段长度>180bp的数据)在TSS周边的信号。其在TSS位点有个明显的凹陷(图2c 红线)。那是因为这个区域核小体缺失,Nucleosome bound的信号在这里会降低。 以上的两个特性,是判断ATAC-seq数据是否达标的重要标准。当然,由于材料不同,物种不同,峰图形式会有所差异。
但如果数据完全没有以上的特性(例如,TSS附近没有峰信号,而是平的),那么意味着在实验处理的时候,样本染色质中的核小体可能已经解离,失去了基因组开放性研究的价值。这个时候就要考虑重新准备样本,从头检测了。 Peak检测与差异peak分析
ATAC-seq的数据形式和CHIP-seq相似,体现为在基因组上的一个个信号峰(就是peak,如图3a)。这些信号峰就是基因组开放的区域,这些开放区域较多集中在启动子(图3b)、增强子等基因组的调控元件上——因为只有处于开放状态,其他调控因子才可以结合嘛。
ATAC-seq的数据在完成Peak检测后,后续分析和转录组测序有些类似,通过比较peak信号的强度差异,发现不同样本组(处理组)间的开放区差异。一般有两种比较的思路:
1有无的差异
类似图3C,通过比较不同组间peak的有无,找组间共有和特有的开放区。特有开放区无疑就包含着样本特异的调控信息。
2信号的多少
开放区的有无毕竟是少数,更常见是开放信号的高低程度变化。所以比较各个区间开放信号的高低差异显著,是各个高分文章更常见的思路。这点分析和转录组测序的差异分析基本相似,即目标是找到不同样本组间开放性上调或下调的区间(图3d)。
图3 ATAC-seq常见的peak相关分析
在找到样本组间差异的peak,下一步就可以解析peak位于哪些区域(例如,启动子、增强子),以及peak周边有哪些基因。那么,“区域开放性变化(B)→改变下游基因的转录(C)”这一层级的调控关系就初步建立了。
但这个关系只是完成一部分,较为完整的链条应该是“特定转录因子(A)结合变化→ 靶标区域开放性变化 (B)→ 开放区下游靶基因的转录变化(C)→ 靶基因调控其他基因变化(D)”(图4 ),其中ABC三步是我们重点关注的问题。
所以,为了建立这个完整的逻辑链,我们还需要分析开放区与上游特定转录因子的关系(A与B的关系)——开放区的转录因子motif分析。
图4 ATAC-seq背后是ABCD的调控逻辑链
开放区的转录因子motif相关分析
为了建立开放区与上游特定转录因子的关系(从B找A),我们确定调控开放区变化的关键转录因子是什么?但如果进行差异开放性分析,我们可以在细胞内找到数以千计的差异开放区,那么到底如何确定驱动这些开放区变化的转录因子是什么呢?
“转录调控关系千万条,核心转录因子可能就一条”,我们如何快速确定核心转录因子呢?这就是需要两个分析来完成。
图5 转录因子motif富集分析(a)与转录因子motif足迹分析(b) 1转录因子motif分析
ATAC-seq检测到的开放区(以及差异开放区),可以认为是细胞内各种转录因子共同作用的结果。但如果某个蛋白是关键转录因子,那么其将可以结合于大多数开放区,对应的大部分开放区也存在该转录因子的结合位点序列(motif)。
我们可以通过检索各个开放区的含有的各类转录因子motif,并进行motif富集分析。一般而言某个转录因子的motif富集程度越高 (即motif在开放区出现次数最多的),则意味着该转录因子在该样本的基因组开放性调控和转录调控中起着非常核心的作用。例如图5a,转录因子NFI的motif富集程度排名第一,那么就提示NIF在这组样本中起着非常重要的调控作用。
2转录因子motif足迹分析
转录因子motif的富集分析,仅仅能够证明开放区大量存在某个转录组因子的结合位点。但如何能证明转录因子的确结合在开放区呢?这就需要进行转录因子motif的足迹分析。
我们上文提到,核小体与DNA的结合会阻滞ATAC-seq中转座酶对DNA核小体结合区的切割。类似的,当转录因子与DNA开放区结合,同样会阻滞转座酶对转录因子结合位点(通常为10个碱基左右)的切割,从而从ATAC-seq的测序信号上会看到一个有趣的现象:在整个开放区,基因组开放性的信号整体较高。但在开放区中,转录因子结合的位置开放性却降低了。
如图5b,统计开放区中转录因子NFI motif序列附近的ATAC-seq信号,可以看到motif所在的区域明显开放性降低,这说明NFI转录因子的确结合在开放区中。这也从另外一个角度证明了转录因子motif分析指向的核心转录因子NFI是正确的。
小结
转录因子调控分析的关键技术之一是CHIP-seq(配合RNA-seq,CHIP-seq可以良好回答某个转录因子的调控机制)。但基因组中的转录因子有上千个,我们如何确定哪个转录因子值得进行CHIP-seq实验呢?
ATAC-seq的以上两步关键分析,就帮我们解决了问题——直接锁定核心转录因子。在锁定核心转录因子后,我们就可以放心地开展对应转录因子的CHIP-seq实验进一步佐证ATAC-seq的发现,一篇高分文章的雏形就有了。 但是CHIP-seq实验对于很多非模式物种来说,依然是难以攻克的难关。例如,在对应物种中找不到特异性良好的CHIP级抗体。这时候,是否有其他替代性的技术可以解决这个问题呢?下一期文章中,我们将介绍一种通用性更强,可以良好替代CHIP-seq的体外研究转录因子结合位点的技术。敬请关注。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|