查看: 3927|回复: 0

你是否还苦恼于细胞注释?

[复制链接]

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
161
注册时间
2019.7.8
在线时间
243 小时

发表于 2021.7.5 10:13:05 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
单细胞转录组可以说是近几年的热门技术,在各个领域都得到了广泛的应用,现在仅使用10X单细胞转录组完成的实验性文章就有上千篇。而纵观所有的单细胞转录组文章,他们的分析都是从细胞类型注释开始的;究其原因,单细胞转录组获得的数据包含了大量细胞,以表达特征划分的细胞亚群终归属于数学意义的分群,这样的细胞亚群只有经过了细胞类型注释才具备进一步向下分析的生物学意义。

现在的大部分文章对细胞亚群的注释都是基于人工的注释方法来完成的,本质上是按照如下过程完成的注释:
1)基于我们的预期(我们样本的类型)构建marker集,marker可以来自数据库或者文献;
2)已知marker基因与我们自己数据中的亚群特异表达基因进行匹配,初步鉴定每个亚群是什么类型的细胞;
3)使用逻辑推理以及绘图可视化,去一一排除初步鉴定结果中矛盾的部分。

以上的步骤看着简单,实际操作起来就会非常繁复,尤其是可视化的过程伴随着大量的图形交互和逻辑推理,这个步骤需要投入大量的时间和精力。那么,是否有一些软件可以协助我们完成自动化的细胞鉴定呢?这个还真的有,毕竟细胞类型注释过程中,机械性工作占了相当的比重,而且讨厌细胞注释的实验室可不是一个两个。

这一类软件替代的是细胞注释过程的机械工作,也就是通过marker基因分布判断细胞亚群所属细胞类型。所以,这一类软件本身也是围绕marker基因来展开分析的。而不同的软件在marker基因的决定上会有不同的策略:一类是基于基因在不同细胞类型的表达量差异去判定marker基因;一类是基于人工提供的marker基因信息做后续分析。接下来我们就来看看这两类软件有什么不一样。

基于基因表达量矩阵

这一类软件的一大特点就是低人工占比,我们需要做的就是输入待鉴定细胞群,然后看输出结果,最后根据输出结果做些验证和矫正就可以完成细胞注释。

细胞类型注释是带有逻辑判断的过程,这一类软件利用基因表达量矩阵完成了marker基因集的筛选,最后所使用的的marker基因数量会远远超过人工鉴定使用的marker基因数量,而逻辑判断部分可以通过相对简单的相关性计算来完成。所以,这一类软件基本都遵循了一套思路:

1) 根据基因表达量矩阵寻找可靠的marker基因
2) 基于marker基因计算未鉴定细胞/细胞亚群与所有细胞类型的相关性
3) 根据相关性进行细胞类型注释

当然,在同一套思路下,不同的软件做了不同的实现。以三个代表性软件为例,singleR以差异倍数来寻找marker基因,以spearman相关系数来计算相关性[1];
  
图1 singleR原理图[1]

celaref以差异基因来寻找marker基因,通过marker基因在待鉴定细胞亚群中上调倍数排名来体现相关性[2];

图2 celaref原理图[2]

CHETAH首先以细胞类型构建层级聚类树,将分支特异性基因作为marker基因,以细胞为某一条分支的可能性来体现相关性[3]。

图3 CHETAH原理图[3]

从原理上可以看出,singleR的计算最为“直接”,也使得它最节省运算资源,同时,singleR还有不俗的鉴定效果;这也使得singleR成为现在使用最多的一个软件。

基于既有marker基因

这一类软件增加了人工在其中的占比,或者说增加了主观意识对细胞注释的影响,因为marker基因是由我们去主观定义的。这一类软件不再需要自行分析去寻找marker基因,而将主要的运算量用在了分类器的训练,后续使用分类器去进行细胞类型注释。

相比之下,这类软件使用的marker基因则相对减少了不少。为了提高准确性,这类软件会在分类器训练上做足功夫。其中使用最广泛的分类器训练方式就是人工神经网络模型,例如软件SuperCT和scANVI,它们将marker基因和细胞类型为节点,以marker基因在细胞类型在不同细胞类型的表达量和基因是否为相应细胞类型的marker基因两个依据做为节点间的权重评判,以此构建人工神经网络模型;最后,以该模型去判断待鉴定细胞的细胞类型[4]。

图4 SuperCT原理图[4]

自动化细胞注释的局限性

近两年,自动化细胞注释的软件如雨后春笋般层出不穷,其中也不乏发表在nature methods等顶级期刊上的文章,但是,这些软件也有其固有的局限性,自动化细胞注释不能完全替代人工注释:

(1) 参考数据集依赖性强。其实看一下两类软件的使用需求就知道,它们都在一定程度上需求基因表达量矩阵。这样一来,对于非模式物种就不是那么友好;非模式物种研究少、可用数据集少,也就导致了软件的参考数据集不易构建。对模式物种而言,参考数据集的选用决定了待鉴定细胞的准确性和分类级别。

(2) 对于相似度很高的细胞类型鉴定准确性会降低。在实际项目中,往往存在相似度很高的细胞类型,比如PBMC样本中的NK细胞、T细胞和NKT细胞。这类细胞表达谱相似,高辨识度的marker基因数量少,直接降低了软件运算的准确性。

正是因为自动化细胞注释软件的局限性,它们更多的还是作为细胞注释中的辅助工具,人工注释的介入才能更好地提高细胞注释的准确性。

自动化细胞注释软件如此繁多,选择一款合适的软件是加速细胞注释的重要途径。在表1中,我简单对比了一下眼下几款主流软件的特性。这样,我们可以通过以下四个条件来选择软件:

(1)软件运算时间。软件本身作为辅助工具,能在个人电脑端快速完成鉴定当然是大多数人的首选。所以,软件运算量要求越低越好。

(2)运行环境。在生物信息学分析中,软件使用还是以R为主;虽然这两年也有不少R包需要Python的运行环境支持,但毕竟是少数。所以,以R为基础的软件更加亲民。

(3)Marker基因的调用。在局限性中我们提到过相似细胞类型鉴定的问题,而marker基因越多,鉴定准确性越高。所以,从表达量矩阵中提取marker基因的方式往往可以获得比主观输入更多的marker基因数量,这样也有助于提高注释准确性。

(4)参考数据集的使用。不同软件提供了不同的参考数据集配用方式。软件自配参考库免去了用户整理数据集的麻烦,但是限制了软件的使用范围;用户自配参考库会增加用户整理参考数据集的步骤,但是增加了软件的开放性。所以,最好的软件是自带参考库足够强大,又提供了用户自建参考库的可能。

表1 自动化注释软件对比

综合以上考虑,singleR是一款综合能力不错的软件,基于R语言的软件设计,运算资源消耗很小,自带数据库包含了人和小鼠的众多细胞类型,也允许用户自配数据库,是不错的细胞注释辅助工具。 微信文章的篇幅有限,我们没法对每个软件的原理做详细的讲解,下周二(5月19日)下午16:00,我们将对代表性软件做详细的原理解析,对singleR做应用性的讲解,欢迎苦恼于细胞类型注释的老师同学扫码加群,等待直播通知~



参考文献
[1] Dvir Aran, Agnieszka P Looney, Leqian Liu, and et al. Reference-based analysis of lung single-cell sequencing reveals a transitional profibrotic macrophage. Nat Immunol, 2019. 20(2):163-172.
[2] celaref: https://bioconductor.org/packages/release/bioc/html/celaref.html
[3] Jurrian K de Kanter, Philip Lijnzaad, Tito Candelli, and et al. CHETAH: a selective, hierarchical cell type identification method for single-cell RNA sequencing. Nucleic Acids Res, 2019. 47(16): e95.
[4] Peng Xie, Mingxuan Gao, Chunming Wang, and et al. SuperCT: a supervised-learning framework for enhanced characterization of single-cell transcriptomic profiles. Nucleic Acids Res, 2019. 47(8): e48.


本文作者:基迪奥-L.L


来源: 你是否还苦恼于细胞注释?
新的一天加油!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表