查看: 948|回复: 4

[ChIP-seq] 转录组测序之后该做什么?——基因组可接近性会给你线索

[复制链接]
  • TA的每日心情

    2019.7.1 10:17
  • 签到天数: 92 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    310
    奥币
    941
    积分
    4650
    注册时间
    2018.4.19
    在线时间
    754 小时

    推广达人宣传达人


    发表于 2019.3.27 09:26:37 | 显示全部楼层 |阅读模式
                                                                                                       
    转录组测序后的困惑
    转录组测序,无疑是分子生物学研究领域大家最熟悉、使用最多的组学技术之一。转录组测序可以为我们全面地提供样本内基因转录表达量的信息。通过常用的分析方法(例如表达差异分析、功能分析等),我们可以快速知晓样本间的转录差异的总体规律(例如,样本间的差异主要涉及哪些通路,发生在细胞的哪些位置)。
    但转录组测序的不足也是显而易见的。因为转录组测序结果本身就是一张表格,我们无法直接获知基因间错综复杂的调控关系。但当你想进一步理清一些更关键的问题,就会遇到困难,例如:这些基因间的关键调控关系是什么?导致这些成百上千的基因发生变化的关键驱动基因是什么?回答以上的这些问题非常重要。
    因为“干湿结合”是后组学时代研究的主旋律,如果我们无法从一堆转录组测序数据中找到核心调控点,那么测序数据就无法有效、准确地指导我们进行下一步分子生物学实验。“转录组测完了,现在我该做什么?”相信很多测过序的人都曾有过这样的疑问。


    图1 转录组测序需要结合多组学才有利于找到核心调控关系

    从另一个角度来考虑,细胞内部本身是一个非常复杂的调控系统。当我们只使用转录组这一种组学信息,那么情形自然就如同盲人摸象,从少量有限的信息难以理清事物的本质。好在我们不仅仅只有一种工具,结合其他不同维度的组学信息,例如DNA组学的变异信息,蛋白组学,表观组学等,通过不同组学的贯穿分析,往往可以帮助我们缩小范围,找到核心调控点。


    图2 DNA与RNA之间有很多变化可能发生

    转录前调控——片生机勃勃的“草原”
    在众多可能性中,转录前调控起着非常重要的作用。因为从DNA到RNA之间有一片巨大的“舞台”——染色质。如果把染色质比作一片“草原”的话,这片草原中生存着众多 “表观/转录调控分子”的“物种”。这片草原中发生着的“物种”之间复杂的竞争、协同作用,其精彩程度绝不亚于非洲大草原。我们先来看看,染色质这片草原的“核心植被”大概长什么样子。

    这片草原“植被”的基本结构是由DNA缠绕着核小体构成。核小体是由H3、H4、H2A和H2B四种组蛋白构成的八聚物。DNA绕行核小体一圈的长度大概是147bp。我们都知道DNA是关键遗传物质,但这些DNA所依附的核小体绝对是不可忽略的物质。在以上的DNA-核小体的基本架构的基础上,很多调控分子在这片草原生机勃勃地生长起来。我们这里要提到4类关键的调控因素。


    图3 染色质“草原”生机勃勃

    转录因子——草原的主要物种

    转录因子(Transcription factors)的重要性自然毋庸置疑。我们都知道在启动转录前,需要转录因子这种特别的蛋白结合在DNA上,进而招募其他的关键分子(例如RNA聚合酶II)进一步全面启动转录。那么转录因子与DNA结合,是非常重要的步骤。但结合本身意味着需要空间,类似我们要在地铁里坐下,前提是地铁里有空位。

    转录因子要在DNA上“坐下”就意味着DNA上有空位。但如果上文提到的,大部分DNA区域与核小体缠绕着,这意味着这些DNA区域是没有“空位”的。要让转录因子能够正确工作,那么就要求基因组DNA某些区域不与核小体缠绕,处于“开放”状态。

    所以,我们将这种不被核小体占据,对转录因子等转录调控蛋白的结合处于开放状态的区域,称为开放染色质区(open chromatin)。相对应的,被核小体占据,对转录因子等转录调控蛋白的结合处于拒绝状态的区域,称为闭合染色质区(Closed chromatin)。这种染色质的开放和闭合状态,也对应这些区域对调控蛋白的可接近(从而进一步结合)程度。所以,我们将这种状态也称为染色质可接近性(chromatin accessibility)。

    染色质的开放性和可接近性,可以认为是一个概念。下文如果我混用两个名词,大家不要感到意外。那些高可接近性的开放染色质区通常位于启动子区和增强子区。关于这两个区域的特点,我们下文会介绍。

    大部分高等生物都有上千种转录因子(人类大概2000种),构成了复杂的转录因子调控网络。这大概是染色质这片草原上,多样性最高的“物种”了。但无论这个网络多复杂,只有靶基因的启动子开放,对应的转录因子才能发挥它们的功能。


    图4 开放染色质与关闭染色质区对调控蛋白的亲和力不同

    核小体重塑——草原植被是如何变换的

    既然特定区域(尤其启动子区)染色体开放与否直接关系到基因的转录激活与沉默,那么通过调控,改变特定区域的核小体状态就非常重要了——这就是核小体重塑(nucleosome remodelling)。

    核小体重塑包括核小体的移动(挪动核小体在染色体上的位置)或重新拆装(将特定区域的核小体解离或重新合成安装上)。这些过程都是通过特定的蛋白复合物来完成,从而保证特定的染色体区域可以在开启和关闭之间切换。


    图5 核小体状态是可改变的

    核小体修饰——植被是否变化也与草的品种有关

    核小体是否被重塑,也是很大程度由其自身的成分决定的。核小体成分的改变包含了组蛋白亚型和组蛋白修饰两大因素。上文我们提到,虽然核小体是八聚物,由四大类组蛋白构成。
    但特定类型组蛋白,依然存在变异体(由不同基因编码)。例如,组蛋白H2A和H3,分别存在变异体H2A.Z和H3.3。这两种变异体构成的核小体通常较为不稳定,便于染色质开放性的高低调控。
    而在组蛋白内部,也存在不同类型的化学修饰。比如,我们如果说H3K4me3,意思就是说H3组蛋白的第3个赖氨酸(K)上有3个位点发生了甲基化。H3K27ac,意思就是说H3组蛋白的第27个赖氨酸(K)上发生了乙酰化。这些组蛋白的化学修饰,也会影响核小体的静电荷,从而影响核小体与DNA,核小体与其他蛋白的结合能力。

    DNA甲基化——影响草原植被变化的另外一个因素

    DNA甲基化是另外一个我们所熟悉的表观修饰形式。在高等生物里,我们谈DNA甲基化,通常默认是5mC甲基化这种类型。很显然,DNA甲基化类似组蛋白修饰一样,也会改变DNA的静电荷,从而改变DNA分子与其他蛋白分子的结合能力。
    虽然DNA甲基化可能直接与转录因子互作从而影响基因的转录,但更多情况下DNA甲基化是与组蛋白修饰配合,通过一套复杂的关系影响基因转录。在我们的omicshare课堂《DNA甲基化与多组学贯穿分析》中,我们也详细讨论两者的潜在关系。
    总之,DNA甲基化影响基因转录的方式非常复杂,不是简单的正相关或负相关关系,而是受组蛋白修饰类型、所在的基因区等多因素的影响。


    图6 来自OS课堂《DNA甲基化与多组学贯穿分析》的截图
    课堂链接:http://www.omicshare.com/class/home/index/series?id=12

    启动子和增强子——草原水草最丰美的地方

    上文,我们已经提到了启动子(promoter)和增强子(enhancer)区,是基因组中最常见的开放区。其中,启动子区是大部分人熟悉的,就是位于基因上游转录起始位点(TSS)附近的一段调控基因起始转录的区域。
    而增强子大家可能略微陌生一些,简单说来就是离基因通常更远,主要通过激活特定启动子而起到调控作用的基因组元件。如图7b,增强子可以通过被一系列(有转录激活能力的)调控蛋白结合而间接与下游启动子结合,从而激活下游启动子的转录活性。
    简单来说,启动子是激活下游基因转录的元件,增强子是激活启动子的元件。无论启动子还是增强子要起作用,前提是该区域处于核小体开放状态,可以被其他调控蛋白接近并结合。
    如何判断一个区域是有活性的启动子还是增强子呢?首先,其必须是该区域处于开放的状态(后续我们会介绍染色体开放性检测的方法);其次,启动子一般在TSS区附近,而增强区则可能离TSS区较远;再次,这些区域对应特定的组蛋白或DNA甲基化修饰状态。例如,增强子区常见的组蛋白修饰方式是:H3K4me1/2(单甲基化或二甲基化),H3k27ac,而启动子区附近的组蛋白一般带有H3k4me3修饰。
    有这样的一系列线索,我们就可以找到染色质草原水草最丰美的地方——处于激活状态的启动子和增强子区。这些地方,就是草原上的生物—— 转录因子等各类调控蛋白最爱来的地方。以这些地方为线索,我们就能揭开在特定组织、细胞内部,各类分子相互调控背后的核心秘密。


    图7 启动子与增强子示意图

    转录因子(转录因子)——可以改变“草原“植被的物种


    在非洲大草原上,动物们随着旱季和雨季变化,逐水草而居,在自然环境面前更多是被动适应。但在染色质这个大草原上,转录因子们则要强大地多——它们还可以反向改变草原的植被。
    因为转录因子在结合DNA的同时,也会逆向影响染色质的结构,导致局部基因组开放性的改变。对于转录活跃的基因(图8a), 启动子区通常处于开放状态,从而让转录因子可以结合启动子激活转录。对于暂时处于沉默状态但可以被诱导激活的基因(图8b),我们将会看到转录因子如何反向改变局部染色质的结构。这个过程有三个步骤:
    (1)虽然该基因的启动子区处于关闭状态,但处于核小体间的DNA连接区(linker)处于弱可接近的状态。这些区域如果存在转录因子结合位点,那么一些转录因子就可以结合在这个区域。这些转录因子被称为先导(Pioneering)转录因子。
    (2)随着先导转录因子的结合,会招募其他的核小体重塑和修饰复合物的结合,进一步将周边染色质从闭合改变为开放状态。
    (3)随着区域开放性的提高,原先与核小体缠绕的转录因子结合位点被暴露出来,让继发(Secondary)转录因子可以结合在这个区域,从而全面激活这个区域的转录。
    在这里我们可以看到,转录因子有点类似人类。人类可以在一处地方开垦和定居,从而改变某个区域的植被和地貌。但如果因为战争或其他原因导致居民迁走,那么人类定居点会重新转入荒芜状态。转录因子与核小体也存在动态拉锯的关系,从而使基因可诱导区的开放性处于动态变化过程。


    图8 转录因子会反向改变“水草”的分布。图中DNA上的红点是转录因子结合位点。

    核心点在哪里?

    通过上面的文章,我们已经看到了在染色质这个大草原上,转录因子们作为生态链非常重要的一部分,与其他影响染色质结构的因素持续相互作用,从而调节着细胞内基因的转录表达。但我们也看到了,这些因素间的两两互作(图9左半部)构成了一个非常繁杂的系统。
    当我们看到下游基因转录的变化,实际上是上游各种复杂因素共同作用的结果。转录组测序后,我们找不到头绪,不知道导致这些变化的关键因素是什么,这是非常正常的困惑。因为如图9,这个调控如同一个杠杆,两侧的信息量都非常巨大。如果你从转录组直接切入寻找上游,意味着无数的可能。
    以转录因子为例,人体内的转录因子约有两千种。那么,对一个转录组的差异表达数据,我们应该选择哪个转录因子下手呢?转录因子CHIP-seq的实验难度这么大,我们怎么能够保证一击必中呢?(非模式物种,还面临没有抗体的问题。不过后续我们会介绍DAP-seq这个能绕过抗体制备的非模式物种“替代性CHIP-seq“的方法)
    又比如,如果从DNA甲基化和组蛋白修饰入手,那更是一锅复杂的乱炖(常见的组蛋白修饰就有很多种,DNA甲基化与组蛋白修饰又有复杂的互作关系)。那么我们有更好的思路吗?
    要想在转录前调控的主战场——染色质这片草原上纵横驰骋,意味着我们需要猎手一样敏锐的嗅觉和正确的方法。如果你是国家地理的摄影师,编辑部老板正催着你下周交稿,你会怎么做?
    还继续开着悍马漫无目的地在非洲大草原上驰骋吗?那样的话,你有大概率拍不到什么好片子。那应该去哪里?当然去水草最丰美的地方。原因有两点:
    (1)你可以最短时间得到有效的信息
    在水源地,角马蹬羚要来饮水,猎豹狮子要来狩猎,你可以在最短的时间内获知当地生态系统的关键信息(有多少物种,种群多大,谁是王者)。
    (2)为下一步的深入追踪提供可能
    如果你不满足于只看动物喝水,则可以在它们喝完水后继续深入追踪它们的族群生活。至于你希望拍摄狮群内部的竞争合作关系,还是斑鬣狗特别的生殖方式,完全是你的选择。


    图9 染色质开放性的变化是转录组前调控的核心节点

    同样的,在染色质这片草原上,也有一片水草丰美的地方,那就是染色质可变开放区(通常是启动子和增强子区)。如果你是转录调控研究的”猎手”,很显然你应该拿上长枪短炮先蹲守在这些地方。原因同样有两点:
    (1)你可以用最简洁的方式,得到最有效的关键信息
    无论最上游调控因子变化多么复杂,方式多么多样,它们要影响基因转录,必须经过染色质开放区。因此,关注可变开放区可以让你暂时化繁为简,直接知晓哪些基因的调控区发生了开放性的变化,开放区有哪些转录因子结合位点。
    (2)为下一步的深入追踪提供可能
    当你抓住了关键可变开放区的基础信息,下一步你大可以进入上游,窥视在这个区域周边生活的物种(转录因子)如何与影响染色质“环境”的环境因子(组蛋白修饰、DNA甲基化等)斗智斗勇,更加深入系统地解析染色质这片草原上发生着的故事,然后快乐地发高分paper。


    图10 基因组可接近性的常见高通量检测方法

    好了,说了这么多,大家可能会对基因组可接近性研究非常感兴趣了。实际上,在这个领域已经有非常成熟的可以进行全基因组水平开放染色质检测的方法。例如,DNase-seq、MNase、ATAC-seq等。在周四的微信文章中,我们将继续为你介绍这些基因组可接近性检测方法的原理和区别。
    另外,周四的微信文章中,我们将有一个惊喜公布给大家,敬请期待。

    参考文献:
    [1]Cedar H, Bergman Y. Linking DNA methylation and histonemodification: patterns and paradigms[J]. Nature Reviews Genetics, 2009, 10(5):295.[2] Bell O, Tiwari V K, Thomä N H, et al. Determinants anddynamics of genome accessibility[J]. Nature Reviews Genetics, 2011, 12(8): 554.[3] Ong C T, Corces V G. Enhancer function: newinsights into the regulation of tissue-specific gene expression[J]. NatureReviews Genetics, 2011, 12(4): 283.

    本文作者:周老师   

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    回复

    使用道具 举报

  • TA的每日心情

    2019.7.11 17:17
  • 签到天数: 117 天

    连续签到: 1 天

    [LV.6]常住居民II

    钵水母

    Rank: 3Rank: 3

    主题
    1
    奥币
    583
    积分
    134
    注册时间
    2016.11.12
    在线时间
    51 小时

    发表于 2019.3.27 13:42:09 | 显示全部楼层
    学到了很多
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2017.8.28 15:53
  • 签到天数: 1 天

    连续签到: 1 天

    [LV.1]初来乍到

    草履虫

    Rank: 2

    主题
    0
    奥币
    379
    积分
    48
    注册时间
    2016.4.19
    在线时间
    30 小时

    发表于 2019.3.27 14:20:17 | 显示全部楼层
    学到了很多
    MPJJMHKLLD
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    害羞
    2019.7.8 13:42
  • 签到天数: 575 天

    连续签到: 6 天

    [LV.9]以坛为家II

    迅猛龙

    Rank: 8Rank: 8

    主题
    26
    奥币
    3484
    积分
    1628
    注册时间
    2016.1.8
    在线时间
    370 小时

    发表于 2019.3.27 15:40:46 | 显示全部楼层
    每天一赞
    回复

    使用道具 举报

  • TA的每日心情
    吃饭
    16 分钟前
  • 签到天数: 87 天

    连续签到: 2 天

    [LV.6]常住居民II

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    361
    积分
    124
    注册时间
    2019.3.30
    在线时间
    28 小时

    发表于 2019.3.31 23:09:15 | 显示全部楼层
    好文,一定要顶!!!
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表