查看: 971|回复: 0

[宏基因组] 基于reads 还是基于基因?这是个问题

[复制链接]

迅猛龙

Rank: 8Rank: 8

主题
209
注册时间
2020.6.16
在线时间
125 小时

发表于 2021.3.2 16:17:07 | 显示全部楼层 |阅读模式
随着大家对微生物群落日益深入的研究需求,宏基因组的应用越来越广泛复杂。除了往期介绍过的组装、binning、CAG等,在宏基因组文献中,极容易被大家忽略的物种注释,其实也有很多故事,而且对数据挖掘有重要影响。目前,宏基因组的物种注释有两种主流的策略——1)基于reads;2)基于基因。

这两种策略有何区别,如何选择呢?今天来跟大家详细聊聊。

宏基因组物种注释原理

①基于reads

不依赖拼接组装的结果。主流的注释软件有Karen、Kaiju等,都是使用测序质控后获得的有效reads比对注释。以kaiju为例[1],是2016年发表在Nature communications上的文章,提供了一种快速灵敏的宏基因组物种注释方法。

如图1,首先将reads翻译成氨基酸序列,由于三碱基密码子的波动,所以一条序列可以翻译成多条氨基酸序列。再加上翻译遇到终止子会中断,所以序列还会被断开。所有reads翻译后,按比对得分(score)挑选可信的氨基酸序列,比对Nr微生物库(细菌、真菌、病毒、微小动植物)进行物种注释。

图1 Kaiju原理示意

②基于基因

依赖宏基因组组装、预测软件、注释算法。组装获得Contig以后,基于基因预测软件,获得非冗余unigene集。将unigene比对Nr数据库,获得基因在各个层级的物种注释。主流的注释算法有LCA(Lowest Common Ancestor)法和Best-hit法。以侧重预测准确性的LCA算法为例[2],也称为最近公共祖先算法,避免一条基因序列出现多个比对结果时产生的物种注释“分歧”,仅保留出现第一次分歧之前的物种注释结果,以尽可能提高物种注释的准确性和数据分析的生物学意义。

如图2,序列A最终仅注释到“Genus1”,序列B注释为“Species2”。

图2

注释方法对比

了解了注释原理,我们可以对比总结两种注释方法的差异。

如表1,基于reads,通常进行物种、功能独立的差异分析,物种定量更为稳定准确,对物种的差异分析结果更可靠。尤其适用于基因水平迁移频繁的功能研究,比如耐药基因,若选择基于基因注释,即使构建了物种-功能对应关系,也不科学。基于reads,则可以提升物种定量准确度。

而且有实际项目表明,16S和宏基因组基于reads的物种定量结果高度一致;但是与基于基因的物种定量结果差异很大,暗示基于reads的准确性更高。

基于基因,由于样本复杂度、物种复杂度等对Contig组装有很大影响,所以对物种的鉴定和定量,依赖组装结果,准确性不稳定。但是可以获得物种-功能的对应关系,如进行功能的差异分析,直接定位到对应的物种,方便后期基于筛选物种进行实验验证。

表1 两种注释方法对比

应用方向对比

两种注释方法都是权威的,被认可的方法,而且各有优势。如何选择呢,则主要依赖大家对自己生物学课题的预期和把握。

我们汇总主要案例的思路对比展示,如表2。

1)基于reads,应用更广泛,多用于生态学、耐药基因等分析,保证更准确的定量,再使用binning建立物种-功能关系;

2)基于基因,多用于医学、宿主关联探究,希望获得物种-功能关联;或者用于选择特定功能的物种,如测序完成后,只挑选N循环相关功能的物种进行分析,不考虑其他功能的物种。

但看整体趋势,基于reads,结合binning的直接分析更占优势

表2 文献对比总览(reads-vs-基因)

小结

样本的物种组成比较复杂,如沉积物、土壤等;关注物种丰度;不关注物种-功能的丰度对应;不基于功能选物种分析;关注耐药基因……可优先考虑基于reads的分析,结合binning辅助物种-功能分析

样本的物种组成相对简单,如人、小鼠肠道;关注物种-功能联合分析,如物种功能的后期验证等;挑选目标功能对应的物种开展分析……可优先考虑基于基因的策略

所谓鱼与熊掌不可兼得,你会选了吗?

Tips:
基迪奥宏基因组测序提供“基于reads”和“基于基因”两种分析策略可选,还有成熟的binning分析流程,助力大家开展更专业更深入的微生物群落研究。欢迎有测序计划的小伙伴联系当地销售。

参考文献:
[1] Menzel P, Ng KL, Krogh A. Fast and sensitive taxonomic classification for metagenomics with Kaiju. Nat Commun. 2016;7:11257. Published 2016 Apr 13. doi:10.1038/ncomms11257
[2] Huson, D.H., Auch, A.F., Qi, J., Schuster, S.C., 2007. MEGAN analysis of metagenomic data.Genome Res. 17, 377–386.


往期宏基因组相关文章回顾:
从16S到宏基因组,文章提升不止一个level
如何基于“16S+宏基因组”提升文章水平?
拿到Bin以后,会用才是高级分析!
宏基因组CAG、MGS、MLG、MAG傻傻分不清?
基迪奥合作客户发宏基因组8分文章!
基迪奥客户又发3篇宏基因组高分文章


本文作者:基迪奥-小鱼儿               


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
新的一天加油!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表