迅猛龙
 
- 主题
- 214
- 注册时间
- 2020.6.16
- 在线时间
- 129 小时
|
本帖最后由 基迪奥-Jt桃 于 2021.3.24 09:18 编辑
代谢组学是对生物样本中所有低分子量代谢产物(比如花青素、脱落酸、类固醇)进行分离、定性和定量分析,以寻找代谢物变化规律与生理病理变化相关关系,进而解析生物学问题的一门科学。该学科虽然年轻,但已经在很多领域大放异彩,研究需求也逐渐增多,很多人没有明确要分析的物质,尝试送样做了非靶代谢组的分析,拿到数据之后不知道怎么用,结果不知道怎么展示,本周三在线课堂就为大家梳理一下代谢组学分析过程中涉及到的关键点和时下正流行的一些新型图形,这篇推文先偷偷为大家透露一部分内容。
直播时间:2021年3月24日下午15:00-16:00
直播地点:B站
B站号:基迪奥生物
房间号:22356503
代谢组学数据分析可分几个步骤:对检测得到的原始数据进行数据预处理、数据质控、代谢物定性定量、通过生信分析挖掘数据。
数据预处理
通过软件解析色谱和质谱得到的图谱转变为可计算的数据文件,即得到原始数据后,为了消除存在的外在或人为的干扰因素,需要预处理增加数据的稳定性。常见的预处理步骤包括:
①降噪:通过匹配滤波和移动窗平均滤波等方法去除掉数据中来自样品制备或仪器的噪音。
②基线校准:当没有物质时,谱图的强度值应该为零,所有谱图强度值应以此为基础,但可能由于仪器不稳定产生偏差,需要对此进行校正。可以通过将同一谱图所有数据值减去最小值,使基线为零。
③解卷积:由于物质的保留时间很接近或峰宽度过大导致多个色谱峰没有分离开而共流出时,代表多个物质的峰就会重叠在一起,解卷积就是利用数学算法将色谱未能分离的组分重区分开。
④峰对齐:为了校正由于仪器不稳定性、样品pH值和浓度等因素带来的时间偏移,需要进行峰对齐,让所有样本中代表同一个物质的谱峰保留时间一致。
⑤峰识别:确定峰的起点和终点。
⑥峰特征提取:提取峰高或计算峰下的覆盖面积。
⑦归一化:为了使不同浓度的样品之间具有可比性,通常需要对数据进行峰面积归一化。常用的归一化方法有Ctr(Center scaling),UV(unit variance scaling)和Par(Pareto scaling)。Ctr也叫中心化,是原数据减去每列变量的均值,UV是数据中心化后除以列变量标准差(Standard deviation),Par是数据中心化后除以列变量标准差的算术平方根。Ctr将原数据转化成离原点更近的新数据,可调节代谢物的高低浓度差异;UV的优势是所有变量拥有同等的重要性,但缺点是检测误差可能会被放大;Par相比于UV更接近于原始测量数据,但缺点是对变化倍数大的变量更敏感。
图1 代谢组学预处理步骤
数据质控
对于样品较多的研究,为了获得可靠且高质量的代谢组学数据,通常在检测时利用QC样本进行质控,每间隔一定样品添加QC,提供数据重复性的有效评价标准。QC样本是所有待测样品等量的混合物,但如果是临床样本,数量较多,采样历时很长,可挑选代表性样品制备QC。理论上,QC样本都是相同的,但是在样品提取、检测分析过程中会有系统误差,导致QC样本间会有差异,如果RSD<30%的特征峰比例能达到70%左右,说明数据良好,差异越小说明方法稳定性越高,数据质量越好。体现在PCA分析图上就是QC样本越密集,数据越可靠。
图2 QC样本PCA图
代谢物定性定量
定性:通过一级质谱可以了解化合物的分子量(GC-MS数据库成熟,一级可定性),二级谱图可以对化合物的结构进行分析。将GC质谱图与数据库NIST、GMD比对,LC-MS的二级谱图与Metlin、HMDB、MzCloud等数据库或自建库中的谱图进行匹配比对,可得到化合物具体的注释信息。
定量:GC-MS一般通过化合物色谱峰面积对物质定量,当分离度不好,色谱峰形不好(如严重拖尾)时,峰面积测量引起的误差较大,此时可以使用峰高法定量。LC-MS/MS则利用一级质谱得到的母离子峰面积进行定量。非靶通常选择内标法进行相对定量。将内标物质,定量加到样品中,根据预测定组分和内标峰面积或峰高的比值进行定量分析。
生信分析
1.聚类分析
聚类分析有两个作用,一个是通过全部代谢物的表达谱对样本进行聚类,分析样本重复性的好坏以及分组情况;一个是把表达模式相近的代谢物进行聚类,去大致观察代谢物丰度在各组中的变化规律,常用图形包括聚类树状图和热图。
图3 代谢组学聚类分析常用图形
2.多元统计分析
由于代谢组数据具有多维且某些变量间高度相关的特点,运用传统的单变量分析无法快速、充分、准确地挖掘数据内潜在的信息。因此对采集的多维数据多进行降维和归类分析,从而挖掘提炼出最有用的信息。常用方法包括无监督的PCA分析、有监督的PLS-DA分析、在PLS-DA基础上加入正交信号矫正的有监督的OPLS-DA分析。
图4 多元统计分析常用方法和图形
3.差异分析
在代谢组学分析中,除了通过Student’s t检验、ANOVA检验获得P值筛选不同比较组间的差异代谢物,通常还结合多元统计分析PL-DA或OPLS-DA的VIP值进行筛选,即差异代谢物阈值条件:OPLS-DA模型中VIP≧1 且Student t-检验 p<0.05。常用的图形包括差异柱状图、火山图、VIP图、z-score、热图和ROC图。
图5 差异代谢物分析常用图形
4.差异KEGG富集分析
在生物体内,不同基因相互协调行使其生物学功能,基于Pathway的分析有助于更进一步了解基因的生物学功能。KEGG是有关Pathway的主要公共数据库。Pathway显著性富集分析以KEGG Pathway为单位,应用超几何检验,找出与整个背景相比,在差异代谢物中显著性富集的Pathway。通过Pathway显著性富集能确定差异代谢物参与的最主要生化代谢途径和信号转导途径。
常见图形包括富集柱状图、富集通路图、富集热图,还有我们基迪奥自己开发的颜值爆表的富集圈图和富集差异气泡图。
(a)
(b) 图6 差异代谢物KEGG富集分析常用图形
如果通过传统的KEGG富集分析没有找到研究相关的典型的代谢通路,还可以利用MSEA(Metabolite Set Enrichment Analysis)试一试。MSEA的QEA模式类似基因分析中的GSEA,利用The Small Molecule Pathway Database(SMPDB)数据库(https://smpdb.ca)对所有样本中鉴定到的所有代谢物确定和解释一些重要的生物学通路中代谢物的变化模式。
图7 MSEA分析结果图
5.趋势分析
趋势分析是针对多个连续型样本(至少3个)的特点(样本间包含特定的时间、空间或处理剂量大小顺序)而对代谢物的表达模式(在多阶段中表达曲线的形状)进行聚类的方法。通过趋势分析可以找到及可视化代谢物在连续变化的组中丰度的变化趋势。
图8 趋势分析结果图
关于上述图形具体怎么看,有什么样的含义欢迎来观看周三的直播课,届时会为大家做更详细的解读。除此之外,还会通过具体案例为大家讲解常用图形的应用和代谢组学的实际应用。如果有代谢组学质谱检测的需求,对上述结果感兴趣的,也欢迎联系基迪奥,上述图形全在我们的结题报告中会交付喔~
本文作者:基迪奥-萌神
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|