查看: 275|回复: 0

[转录组] 10X单细胞定制分析——细胞分化轨迹分析(下)

[复制链接]
  • TA的每日心情

    前天 11:07
  • 签到天数: 95 天

    连续签到: 2 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    352
    奥币
    906
    积分
    5105
    注册时间
    2018.4.19
    在线时间
    806 小时

    推广达人宣传达人


    发表于 2019.7.16 09:28:25 | 显示全部楼层 |阅读模式
    上周的文章中,我们初步介绍了细胞分化轨迹分析(戳这里)。那么,细胞分化轨迹分析的步骤和注意事项有哪些呢?今天为大家一一讲解。

    分化轨迹分析的轨迹类型

    理论上当我们研究若干种细胞亚型,其潜在的细胞分化轨迹路径有7种(如下图)。包括环形(cycle)、线性(linear),分叉(bifurcation)、多分叉(Multifurcation),树型(Tree),以及更复杂的连接图(相当于树结构内部又形成了回路)、分离图(图形连接中存在断点)。

    目前细胞分化轨迹分析的软件有几十种,一般而言越早期的软件所能模拟的轨迹类型越少越单一;而较晚开发的软件则可模拟的轨迹类型越丰富。


    图1 常见的7种类型的细胞轨迹路径



    我们基迪奥生物细胞轨迹分析报告目前使用的软件是Monocle2。Monocle是细胞分化轨迹分析中应用最广泛的软件之一,该软件主要优点包括:
    a) 算法的主要方法学论文发表在NBT,NM等期刊,比较权威

    b) 软件有对应R包,比较易用;也便与其他软件串联(因为单细胞测序软件)

    c)软件功能完备,却应用简单如果采用软件中的DDRTree降维算法可以拟合线性(linear),分叉(bifurcation)、多分叉(Multifurcation),树型(Tree)4种轨迹类型,已经可以满足大部分需求。

    如果选择软件中的其他降维算法结合一定的参数调整,还可以拟合环形(Cycle)或分离图(Disconnected),因此Monocle几乎可以满足所有细胞分化路径的分析。

    虽然有这么完备的功能,但Monocle软件采用机器学习算法,能自动化优化分析参数(而不需要用户预先设定分化起始细胞、分支树等信息),找出最优轨迹类型,从而减少了人为预判错误导致的误差。

    d)软件更新较快最新(2019年)已经更新到Monocle3。Monocle2以及后续版本,运行效率高,在细胞数量巨大的情况下可以保证较快完成轨迹推断。
    下文,我将就以Monocel2软件为例,介绍细胞分化轨迹分析的过程。

    Monocel2细胞分化轨迹分析的主要步骤

    由于细胞分化轨迹属于高级定制化分析,所以这一步的分析中的若干步骤需要公司和客户协商确认分析方案,才可以顺利实施。如果采用Monocel2进行分析,分析过程主要涉及3个步骤(实际上,大部分分化轨迹分析软件,都遵循这些步骤),分别如下:
    Step1:信息筛选
    (1) 细胞筛选:只筛选潜在存在分化关系的细胞亚群
    (2) 基因筛选:只保留存在差异或变异较大的基因用于分析


    Step2:轨迹构建
    (1) 降低维度
    (2) 构建细胞间分化的轨迹,并将每个细胞映射到路径中

    Step3: 寻找细胞分化相关的基因


    1、信息筛选

    这包含2个部分,包括细胞筛选和基因筛选。

    1细胞筛选

    我们将只筛选潜在存在分化关系的细胞亚群进行分析,这部分公司必须和客户沟通才可以完成。
    在10X 单细胞测序得到的各类细胞中,并非所有得到的细胞类型都存在分化/转化关系。因此,我们需要基于生物学背景进行细胞亚型鉴定的基础上,挑选潜在存在分化关系的细胞类型纳入分析。通常只有属于同一大类的细胞才会被纳入分析。例如,都属于内皮细胞亚群下不同子亚群细胞或已知来源共同祖细胞的细胞亚群。
    基于已知系谱分化关系的分化轨迹分析
    例如,在研究小鼠小脑分化图谱的分析中[1],作者就挑选早期谷氨酸能小脑核细胞(glutamatergic CN,来源亚群5, 23, 39) 和早期颗粒神经元祖细胞(GNPs, 来源亚群21, 22)进行分化轨迹分析,因为这两类细胞都属于活跃性的谷氨酸能神经元细胞,已知来自共同的祖细胞。

    这种已知信息的分析,也可能会有新的发现,比如已知主要分支中可能会出现新的小分叉,这意味着可能是一种未被报道的细胞子亚群。例如示意图10所示,也许主流的分析结果都报道细胞往F1方向分化,但如果分析发现,还存在一种F2的小分支,那么这就是属于一种新的发现。


    图2 谷氨酸能小脑神经细胞的分化轨迹分析




    图3 细胞分化轨迹分析可能会发现新的分化分支 发现全新的细胞分化关系



    当然,如上文所说,细胞分化轨迹分析不仅仅可以用于重现细胞谱系追踪的结果,应用得当,还可以用于挖掘全新的未报道的分化关系。按照“建立假设→大数据模拟”的思路,如何建立假设,即如何筛选潜在存在(未报道的)分化关系的细胞亚群,则是最有难度的事情。

    有个小技巧,可以多去关注细胞亚群鉴定中处于中间状态的细胞亚群。例如在上文提过的小鼠肾组织研究中,作者主要关注肾集尿管中的闰细胞(IC)和主细胞(PC)。作者用maker基因Aqp2可以鉴定亚群6是主细胞(PC),基因Atp6v1g3鉴定亚群7是闰细胞(IC)。

    但两者间还有一个小亚群8。小亚群8既表达Aqp2,又表达Atp6v1g3,因此作者推断小亚群8可能是一种过渡类型的细胞(下图B的椭圆中)。细胞分化轨迹分析结果也符合这个假设(下图C),亚群8(Trans)果然位于PC和IC之间。由此可见,数据中预期之外的部分,往往可能蕴含着创新性的信息。


    图4 利用标记基因判断过度类型的细胞(B)并用分化轨迹分析验证(C)


    2基因筛选

    与Seurat软件包的细胞分群中类似,Monocle在后续分析前也需要对基因进行筛选,以排除与细胞分化无关或者低丰度基因的干扰,提高分化轨迹的可靠性。
    Monocel提供了三种基因筛选的策略:
    1)选择差异表达基因(例如,亚群间的差异基因,或处理组间的差异)
    2) 选择高变异变异系数基因
    3) 选择预设的标记基因

    我们以第二种方法为例,介绍如何筛选高变异系数基因。该筛选策略一般有两个标准:
    (1)平均表达量高于设定的阈值;
    (2)离散(变异)系数高于设定值。
    这样可以保证仅包含有效信息的基因被保留用于下一个步骤的分析,从而提高软件运算速度,并减少误差(低丰度基因表达定量误差相对较大)。这个步骤一般不需要客户参与。


    图5 平均表达量(X轴)和离散系数(类似变异系数,Y轴)是基因筛选的两个指标


    2、分化轨迹构建

    1降低维度

    因为细胞分化轨迹分析最终是在二维平面中通过进化树等形式,呈现细胞的分化过程。因此我们需要通过将复杂的数千基因表达量的信息,减少到两个维度,从而为下个阶段构建细胞分化轨迹打下基础。Monocel2默认采用DDRTree算法进行数据降维(更适用于细胞轨迹分析),而不同于我们熟知的PCA等方法。
    2轨迹构建与细胞映射

    这个过程也有点类似于Seurat中的细胞分群以及映射。但Monocle需要去细胞分化轨迹,以便其符合真实的细胞分化路径,因此过程更加复杂。下图是展示了Monocle2 构建细胞分化轨迹过程的示意图(图6),我将对重点步骤进行解析,以便大家理解其原理。


    图6 Monocle2的运行过程



    图6a→b是数据降维的过程,上文已经介绍过。在完成降维后,细胞分布在二维空间中。找出这些细胞的分群中心(k mean算法),并用拟合线将这些中心连接,从而构建初步的树型结构,既细胞轨迹(图6b→c)。

    在获得树型结构后,每个细胞的位置将被更新移动到最近的“树干”(细胞轨迹)上(图6c→d)。基于新的细胞位置,更新细胞的分群中心和轨迹结构,这个步骤将有利于修剪去掉一些小的冗余分支(图6d→e)。将二维空间中的树,重新投射到高维空间,并重复返回步骤b,直到最终得到稳定的树型结构为止(图6e→f→b)。

    我们可以看到,在b到f的过程中,软件是自动循环运算直到得到最优解,这就是一个机器学习的过程。因此,monocle可以在用户不预设任何信息(轨迹的形状、分支数等预期信息)的情况下,得到最优的轨迹结构。

    值得大家注意的是,图6.g中最终虽然得到了一个细胞分化轨迹结构(二叉树结构),但这还只是一个纯数学的结果,只要纳入生物学的背景信息才有意义。但这个结构本质上还是一个无根树,既从树本身无法判断哪里是起点,哪里是分化的终点。对于树的起点问题,我们要基于生物学背景分两种情况去处理。
    细胞分化过程本身是没有起点和终点,因为两个分支末端的细胞可以相互转化

    这种情况的生物学背景往往发生在细胞去分化重新获得可塑性的情况。例如上文提到的肾集尿管闰细胞和主细胞相互转化,其细胞分化轨迹树(图4C)就没有起点和终点,因为两类细胞可以持续相互转化。

    细胞分化过程应该有确定的起点


    大部分研究的生物学背景,应该属于这种情况——各细胞来源相同的起源,以单行线的方式分化,而不能走“回头路”。那么在这种情况下,我们必须人为设定一个分化的起点,即树的根(root)。

    例如,在图6.g中,设定轨迹的起点是F0位置。只要确定了起点,就可以确定分化的时间方向(拟时间,图6h)和分化的节点(图6i)。那么,图6分化轨迹分析的结论为:细胞从F0位置开始起源,随着分化进行分为了两个分支,最终分化为F1和F2两类细胞。

    那么,如何设定树的起点呢?这还是要基于生物学背景。有两类信息值得参考:
    基于轨迹各末端细胞的标记基因(本质还是细胞类型鉴定)
    因为分化轨迹分析,也将获得轨迹不同部分特异表达的标记基因(在步骤3介绍)。而分化的起点,一般是干/祖细胞等这类高分化增殖能力的细胞。所以,我们可以通过标记基因推测分支末端的细胞类型,进而判断树的哪个末端属于分化的起点。

    基于来源不同样本的细胞在轨迹末端的分布

    10X单细胞测序的实验设计,样本往往也来源不同的条件。例如,沿着发育的不同时间点采样、细胞受特定条件刺激后不同时间点采样。一般而言,早期的样本将包含更多的干细胞/祖细胞。如果发现来源早期样本的细胞集中在轨迹树的某个末端,那么这个末端就往往是分化的起点。

    例如下图,在对小鼠出生前后的小脑细胞开展分化轨迹分析[1],然后将细胞所属样本来源的发育时期映射到图中(就是给每个点涂上不同颜色,这与上文提到的TSNE映射图相似)。

    我们明显可以看到胚胎发育前期的细胞(包括e10,e11,黄色的点)明显集中在红圈中的这个末端,从而可以判断这个末端是分化的起点。实际上,这个起点对应的是甘酸能神经元祖细胞,如果查看属于这个末端的细胞的标记基因,我们也可以发现大量与祖细胞相关的基因。


    图7 小鼠小脑胚胎期(e)和出生后(P)的甘氨酸能细胞分化轨迹分析的结果



    3、寻找细胞分化相关基因


    在确定了分化轨迹后,则可以将所有细胞基于其在分化轨迹上的位置进行分类,并寻找与特定分类相关的基因。分类方式主要包括:分化状态(state)、分化时间(拟时间,pseudotime)、分支(branch)相关的基因。

    1分化状态

    在monocle中,我们可以将分支的各个位置进行了区分,每个区域定义为一个State。然后就可以寻找与特定State相关的基因(Monocle采用广义线性回归分析获得与特定指标相关的基因)。例如下图,我们可以看到Xist在State3高表达,应该与这个分支区域的细胞形成相关。


    图8 按照分化区域(State)进行划分,并寻找与state相关的基因



    2细胞分化过程的拟时间(pseudotime)

    确定了分化起点后,自然就可以虚拟出每个细胞所处的分化时间点(拟时间),并寻找随着分化时间逐渐升高或降低的基因。如图9,基因Mt1随着分化表达量不断升高。


    图9 赋予每个细胞所处的分化时间(pseudotime),并寻找与分化时间相关的基因


    3所属分支(branch)

    不过更多时候,我们会更关心驱动细胞分化相关的基因。那么,我们可以针对各个分支的细胞开展差异分析。如图10,基因Gria2随着分化进行,在分支F1表达量不断上升,而在分支F2表达量却下降,那么该基因可能与驱动细胞分化为两类细胞相关。分析分支分化相关基因在文章中经常出现,一般作者会特别关注分支差异的转录因子,并围绕转录因子开展讨论或下游的分子实验验证。


    图10 寻找分支分化相关的基因


    Tips:对10X单细胞定制分析感兴趣的老师和同学可留言咨询,基迪奥会为您量身定制专业的个性化实验分析方案。

    拓展阅读
    10X单细胞RNA-seq基础分析步骤与常见图形解析(下)
    10X单细胞RNA-seq基础分析步骤与常见图形解析(上)
    为什么要做单细胞测序
    10X genomics ScRNA-seq定制分析
    10X单细胞定制分析——细胞分化轨迹分析(上)

    参考文献:
    [1] Carter R A, Bihannic L, Rosencrance C, etal. A single-cell transcriptional atlas of the developing murine cerebellum[J].Current Biology, 2018, 28(18): 2910-2920. e2.

    本文作者:周老师
                   

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表