查看: 224|回复: 10

[转录组] 转录组专题——趋势分析一问一答

[复制链接]

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
461
注册时间
2020.6.16
在线时间
304 小时

发表于 4 天前 | 显示全部楼层 |阅读模式
在转录组数据分析中,差异表达是RNA-seq的基础分析。上期转录组专题我们对差异分析相关问题进行解答(文章链接:转录组专题—关于差异分析相关问题解答),但是在梯度趋势型实验设计中,我们可能更关心获得的这些基因随着时间/浓度梯度等的变化规律,而两两差异分析显然不足以满足这样的需求,这时利用STEM算法进行趋势分析便可解决这个问题[1]。这个软件目前也已被引用上千次,可谓是转录组数据分析挖掘的利器。本期应广大研究者之需,针对大家所关注的转录组领域趋势分析问题进行探讨,力争为各位老师在科研之路上带来帮助。

在进行问题探讨之前,我们首先回顾关于趋势分析相关的知识点。

梯度变化:趋势分析

趋势分析为梯度类文章的核心分析点,如实验设计(3-5组)涉及梯度处理(时间变化、药物浓度/剂量变化、疾病程度、生长周期等)可利用趋势分析(Series Test of Cluster)将表达模式相似的基因进行归类,从而找到实验变化过程中最具有代表性的基因集以及对应的趋势特征,揭示生物样本在变化过程中所特有的规律[2]。后续可再与功能富集分析结合,更有效地挖掘数据内部的规律。

那么趋势分析与简单的两两差异分析相比,有哪些优势呢?差异分析可谓是转录组测序的核心分析,但有时我们发现经过千辛万苦得来的差异基因可能依旧不可胜数,无法从中披荆斩棘,缩小我们的研究范围。这时开展趋势分析可以帮助我们对获得的差异基因按照其表达趋势进行分类,后续可对感兴趣的趋势基因集再做富集分析,终使研究范围缩小。我们结合具体的趋势分析图整理以下几点优势(图1):
    ①简洁:将大量的基因归类为几个或十几个趋势中,简化分析难度;
    ②全面:可整合多点的数据,呈现基因的全局变化模式;
    ③归类:精细分类,将变化特征模式相似的基因归类到一种变化趋势中,缩小研究范围;
    ④直观:每个趋势背后本身就有生物学意义,如profile 0持续下调。

图1 趋势分析图

那么,有没有一种高效的方法进行趋势分析呢?当然有!登录OmicShare搜索趋势分析,上传基因表达量表即可轻松完成趋势分析

工具链接:https://omicshare.com/tools/

图2 OmicShare趋势分析小工具

如果大家想要深入了解趋势分析算法,可参考OmicShare论坛帖子《趋势分析图工具使用教程和参数详解》。接下来我们还是以一问一答的形式展开探讨大家所关心的趋势分析问题。

趋势分析常见问题


1. 两组可以做趋势分析吗?
答:不能。趋势分析的目的是看基因表达量的变化趋势,两个组可以直接根据差异分析结果判断基因的变化情况(上调、下调或不变),三组以上才能看出来基因的波动变化,如先上调然后再下调的浮动变化。

2. 用于趋势分析的基因集该如何选择?  
答:关于趋势分析基因集的选择没有特别的限制,可根据我们研究的重点来进行选择。常见的有如下两种情况,供大家参考:
    ①选取差异基因的并集。如果我们想要对所有比较组的差异基因(筛选参照标准:|FC|>2,FDR<0.05)展开趋势分析,可对每个比较组两两比较后,取各比较组的差异基因的并集再进行趋势分析;
    ②选择关注的基因集。可通过富集分析锁定与实验研究相关的通路,再单独选定这些通路作为目标基因集,开展趋势分析。如可对植物抗病反应中与免疫通路相关的基因单独生成基因集,再以此基因集为目标,进行趋势分析。像这样的分析就比较个性化,更具有针对性。如果是我们的基迪奥用户,可在Omicsmart在线报告中一键生成目标基因集,再利用目标基因集进行趋势分析,分分钟钟自主搞定趋势分析

图3 Omicsmart趋势分析目标基因集选择及参数调整

3. 趋势分析模块中的显著性P值含义?  
答:趋势分析模块中显著性p值的含义为判断模块中的基因是否为显著集中还是随机分配。它的算法与差异分析的不同,差异分析中的p值是对两两比较组进行差异检验,通过p值大小判断获得差异基因的可靠性。趋势分析是将各个基因分配到预设的具有代表性的趋势模块当中,对随机性进行检验。即如果某类基因与我们实验处理相关,那它们的表达模式可能比较相似,会集中在与实验处理相关的特定趋势中,因此导致这个趋势模块中的基因数量大于随机分配的期望值。

Tips
STEM软件在完成趋势分析后,按照设定的显著性阈值判断显著富集的趋势。最终在输出的趋势图中利用颜色标注,相同的颜色代表具有相同的趋势,后续可进行二次合并简化趋势分析结果,不显著的趋势模块没有颜色。

4. 怎样挑选目标趋势模块开展后续分析?  
答:关于目标趋势模块的选择,根据我们的研究目的可选择不同的模块。

    ①挑选显著的趋势模块进行分析。那些有颜色显著富集的趋势模块可能由于真正的处理效应导致基因集中于这种趋势的模块中,所以这些模块是值得我们优先重点关注的,但这并不意味着不显著的趋势模块就不值得关注。因为统计显著性本身受很多因素的影响,显著性检验只是提供数据挖掘的优先级。

    ②挑选和生物学意义相关的模块。在我们的实验研究中,基因的变化情况往往受实验设计的影响。如逆境胁迫下,我们可能会重点关注处于持续上调或下调的模块,不显著的模块也有它的生物学意义,统计学显著和生物学显著是两回事,不用太局限于P值。

5. 在不同梯度处理进行趋势分析时,是谁和谁比?  
答:趋势分析默认模式下都是所有样本与第一个样本进行比对,计算所有样本相对第一个时间点的表达量倍数,之后软件默认对表达量倍数进行log2标准化。这样从比对结果可直观获得相对于开始处理样本的基因表达变化趋势(上升/下降/不变)。如0、5、10h三个时间段样本,5h和10h的基因变化倍数均是与0h进行比较得到的。第一个时间点样本经log2标准化处理后表达量为0,后续经时间变化后相对于第一个时间点表达量若小于0,则发生下调,大于0,则为上调。

表1 趋势分析样本表达量比较处理

Tips
如果此时第一个样本表达量为0,直接进行计算则这些基因将因为在计算时分母为0而导致无法计算被过滤掉,造成大量信息丢失。所以,对导入文件中表达量为0的基因,可赋予其一个极小值(如0.001),以避免第一个时间点表达量为0的基因被过滤。

6. 如果梯度处理分组数据为4-6组,怎么选择使用WGCNA还是STEM呢?  
答:如果总样本数大于15个,WGCNA和STEM都可以使用,预测基因表达变化趋势以及基因之间存在的潜在调控关系。若采用STEM进行趋势分析,对于梯度处理分组数>4,依据经验建议生成20个趋势模块。因为STEM算法采用有监督学习,预先生成n种最具有代表性的可能趋势,再将每一个基因归类到与其最相似的趋势中。

Tips
如果梯度处理组太多(6个或6个以上),再采用STEM去模拟所有代表性的趋势,可能会因趋势过于零碎加大后期数据整理的工作量(图4);若人为设定生成20个趋势模块,也可能会因梯度分组过多,变化较为复杂而不能精准涵盖趋势变化情况。这时就可以考虑使用其它更适用于大样本量的分析方法,比如WGCNA。

图4 STEM软件生成6组梯度处理的趋势模块

以上是针对趋势分析常见问题进行的解析。接下来我们通过分享基迪奥客户文章,来探讨怎样将趋势分析应用到实战问题中。

案例一:CD147抗体特异有效地抑制新冠病毒及其变体的感染[3]


发表期刊:Signal Transduction and Targeted Therapy
影响因子:18.19
发表时间:2021年9月
合作单位:空军军医大学

实验设计

取接种病毒2、6和13 d.p.i.(days post infection)对照组C57BL/6J和实验组hCD147小鼠肺匀浆进行转录组测序。

趋势分析应用


因实验涉及时间梯度处理,作者为进一步明确病毒侵染hCD147小鼠的发病机理,从转录组层面入手,通过差异、趋势和富集等分析点层层递进,缩小关注范围,并找到关键通路。对差异基因开展趋势分析,设定3个不同的趋势模块,包括持续下调(profile 1)、在6 d.p.i.到达平台期(profile 2)以及6 d.p.i.后为峰值(profile 3),后续对这3种模块开展富集分析。结果发现与免疫相关的信号通路多在6 d.p.i.达到峰值,如IL-17信号、细胞因子和趋化因子信号、补体系统和凝血因子等(图5)。

图5 对2、6、13 d.p.i.差异表达基因进行趋势分析

案例二:多组学联合揭示发育中银杏叶光合作用的调控机制[4]


发表期刊:International Journal of Molecular Sciences
影响因子:5.924
发表时间:2021年2月
合作单位:南京林业大学

实验设计

取树冠高、中、低三个部位的4个不同发育阶段的叶片(T1、T2、T3、T4),各3个生物学重复,进行转录组测序和非靶代谢UPLC-MS检测。

趋势分析应用

本实验涉及银杏叶片4个不同的生长发育阶段,因此为获得不同时间点DEGs的动态变化,作者首先统计各比较组DEGs数量,后续利用DEGs开展趋势分析。发现4个时间点的DEGs被归类至20个不同的趋势模块中,其中7个模块显著富集(p<0.05)。再对显著富集模块进行KEGG富集分析,挑选top 5显著富集的pathway,发现12、17、18、19模块中的基因与内质网中的蛋白质转运、mRNA监测、氨基糖和核苷酸糖代谢和谷胱甘肽代谢相关(图6)。

图6 DEGs趋势分析及每个profile的top5显著富集通路

案例三:转录组测序揭示不同剂量NPs处理生菜后的毒性机制[5]


发表期刊:International Journal of Molecular Sciences
影响因子:5.924
发表时间:2021年4月
合作单位:华南师范大学

实验设计

采用不同浓度的CuO-NPs(CK:0mg/L、T1:100mg/L、T2:1000mg/L)处理生菜叶片,结合转录组测序分析生菜对不同剂量处理的毒性反应。

趋势分析应用

对不同浓度处理下获得的差异基因进行表达趋势分析,共归类到8个模块中。因作者更关心随剂量增加呈上调动态变化的基因,所以重点关注profile 7和6。对模块进行富集分析,结果表明大量基因的表达与细胞壁组织、活性氧代谢过程、激素反应、应激反应、跨膜转运蛋白活性调节和抗氧化活性等相关(图7)。表明植物建立了防御和解毒策略来应对NPs诱导的毒性,可能与胁迫反应、细胞反应和代谢过程相关的基因表达有关。

图7 浓度梯度处理趋势分析

对于3-5组梯度样本案例介绍就到这里,如若分组过多,样本量≥15(有生物学重复),这时可采用更适用于大样本量分析的方法——WGCNA。我们在下期转录组分析问题专题中将和大家讨论WGCNA相关问题,下期不见不散。

▼参考文献▼
[1] Ernst, Jason, and Ziv Bar-Joseph. STEM: a tool for the analysis of short time series gene expression data. BMC bioinformatics, vol. 7 191. 5 Apr. 2006, doi:10.1186/1471-2105-7-191
[2] Lu, X., Kim, H., Zhong, S. et al. De novo transcriptome assembly for rudimentary leaves in Litchi chinesis Sonn. and identification of differentially expressed genes in response to reactive oxygen species. BMC Genomics 15, 805 , 2014. https://doi.org/10.1186/1471-2164-15-805
[3] Geng, J., Chen, L., Yuan, Y. et al. CD147 antibody specifically and effectively inhibits infection and cytokine storm of SARS-CoV-2 and its variants delta, alpha, beta, and gamma. Sig Transduct Target Ther 6, 347, 2021. https://doi.org/10.1038/s41392-021-00760-8
[4] Guo, Ying et al. Metabolome and Transcriptome Analyses Reveal the Regulatory Mechanisms of Photosynthesis in Developing Ginkgo biloba Leaves. International journal of molecular sciences vol. 22,5 2601. 5 Mar. 2021, doi:10.3390/ijms22052601
[5] Xiong, Tiantian et al. Dose-Dependent Physiological and Transcriptomic Responses of Lettuce (Lactuca sativa L.) to Copper Oxide Nanoparticles-Insights into the Phytotoxicity Mechanisms. International journal of molecular sciences vol. 22,7 3688. 1 Apr. 2021, doi:10.3390/ijms22073688


本文作者:基迪奥-十二

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
新的一天加油!
回复

使用道具 举报

功夫熊猫

Rank: 10Rank: 10Rank: 10

主题
3
注册时间
2017.9.8
在线时间
79 小时

发表于 4 天前 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
0
注册时间
2020.2.12
在线时间
81 小时

发表于 4 天前 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
31
注册时间
2016.1.8
在线时间
556 小时

发表于 4 天前 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
0
注册时间
2020.11.21
在线时间
76 小时

发表于 4 天前 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

功夫熊猫

Rank: 10Rank: 10Rank: 10

主题
3
注册时间
2017.9.8
在线时间
79 小时

发表于 3 天前 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
0
注册时间
2020.11.21
在线时间
76 小时

发表于 3 天前 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
31
注册时间
2016.1.8
在线时间
556 小时

发表于 3 天前 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

功夫熊猫

Rank: 10Rank: 10Rank: 10

主题
3
注册时间
2017.9.8
在线时间
79 小时

发表于 前天 09:58 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

功夫熊猫

Rank: 10Rank: 10Rank: 10

主题
3
注册时间
2017.9.8
在线时间
79 小时

发表于 昨天 09:47 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

功夫熊猫

Rank: 10Rank: 10Rank: 10

主题
3
注册时间
2017.9.8
在线时间
79 小时

发表于 7 小时前 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表