查看: 276|回复: 3

[其他] 便利的R包在你进行差异分析的时候帮你做了什么

[复制链接]
  • TA的每日心情
    忙~
    12 小时前
  • 签到天数: 25 天

    连续签到: 4 天

    [LV.4]偶尔看看III

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    149
    奥币
    1403
    积分
    1284
    注册时间
    2019.7.8
    在线时间
    234 小时

    发表于 7 天前 | 显示全部楼层 |阅读模式
    在生物学研究当中,是什么因素造成了两组之间的差别,通常是我们重点关注的科学问题。这种差别,可能是由代谢物,微生物,基因表达等因素引起的。在转录组研究中,差异表达的基因往往是造成组间差别的驱动因素,我们需要特定的方法找出这些差异基因,这种方法就是差异分析。(蓝色字为太长不看版)

    那接下来我们就以edgeR和DESeq2为例,来了解一下转录组差异分析的过程和一些重要的基本原理,之后再遇到别的差异分析工具,了解起来可能就会相对容易啦。

    差异分析过程

    在拿到基因的表达量总表之后,选择一种差异分析的方法,利用软件计算出基因的表达量在对照组和实验组之间的差距,找到那些变化最显著的基因,然后通过柱状图,韦恩图,热图等等进一步统计表格的结果,把枯燥的数字变成有规律的图形,这个过程就是差异分析的过程,找到的基因就叫差异基因。

    差异分析也可以用在其他组学当中,比如蛋白组学,可以直接用t-检验或是方差分析。而对于转录组的数据来说,这种普通的假设检验工具是行不通的,因为用于描述转录组表达量的counts值是不连续的,方差通常大于均值,离散程度又大,数据不符合正态分布而是负二项分布

    所以人们研究出了更可行的工具,比如现在应用最广泛的EdgeR和DESeq2。

    EdgeR和DESeq2是什么?

    1.EdgeR

    Empirical Analysis of Digital Gene Expression Data in R,是基于负二项式分布进行分析的Bioconductor中的一个R包。对多组实验进行精确检验,称为“经典edgeR”(classic edgeR);而用于多因素复杂实验的广义线性模型,称为“广义线性模型edgeR”(glm edgeR),广义线性模型edgeR使用似然比检验(LRT)和拟似然F-检验(QLF)。两种方法互为补充,可以根据实验设计,实验数据的分布特征进行选择。

    2.DESeq2

    Differential gene expression analysis based on the negative binomial distribution,也是基于负二项式分布进行分析的Bioconductor中的一个R包。应用负二项式广义线性回归模型拟合基因的表达量,评估离散度和差异倍数的变化,并使用Wald检验进行分析。

    DESeq2差异分析原理示意图

    在对基因进行分析之前,首先要把不同的基因的表达量拉到同一个起跑线上,再做比较。转录组测序中最常用的是RPKM,FPKM,先校正测序深度和基因长度不同带来的差异,再进行分析。

    但对于两个R包,它们有个共同的选择,都是用count值直接分析的,没有用RPKM或者FPKM,开发者认为基因长度并不能带来影响。那他们又是如何处理不同测序深度,文库大小带来的问题呢?

    TMM和RLE标准化

    两个R包都有自己的标准化的方法,分别是TMM和RLE。

    1.EdgeR——TMM

    TMM标准化的过程,是先过滤掉count值为0和异常样本,以参考样本的基因作为标准,对其他基因表达量进行校正。具体标准化步骤如下:

    a.数据预处理

    除了过滤掉在所有样本中表达量为0的基因,EdgeR还用到了CPM去过滤基因。CPM是counts per million,公式如下:


    对每个基因计算过后,筛选出在两个样本以上的CPM值均大于1的基因。通过这一步,就排除掉了一些无效值,以及测序深度带来的影响。

    b.选择参考样本

    选定了参考样本之后,其他样本就会根据参考样本里每个基因的表达量去校正自身。通过计算每个样本的所有基因的总reads数,将每个样本中每个基因的reads除以每个样本的总reads数,校正了每个样本文库大小差异带来的影响。然后计算每个样本基因的上四分位数(Q3)的平均值,将最接近平均值的样本作为参考样本。

    c.计算标准化因子

    首先,计算每个样本和参考样本中相应的基因的表达量的差异倍数(相除),再取log2。然后将每个样本中的基因按这个值由大到小排序后筛选掉前后30%数据,过滤掉表达量为0的,和超过这范围的偏倚基因。

    然后,计算每个样本针对参考样本计算标准化后的结果。上一步是样本和参考样本相除的结果,这一步是计算两个样本基因表达量相乘再取log2,然后除以2。其实从计算方法上看,就是算了两个样本的基因的几何平均数,几何平均数的好处就是受极端值的影响较算术平均数小。然后也是将样本中的基因按这个数值,由小到大排序,这次筛选掉前后5%数据,排除掉异常值的影响。

    接下来就用这两步筛选之后的基因去计算每个样本剩余基因的log fold的加权平均数。由于reads数少的基因经过log fold转换后,变异程度比较大,所以赋予了reads数越多的基因,更大的权重值。然后计算每个样本2加权平均数,得到每个样本初始的标准化因子。然后用初始标准化值/每个样本的几何平均数(基本不会改变数值),使数据中心化,得到最终的标准化因子。

    d.计算标准化后的值

    最终就用初始的表达矩阵中的数值/这个(千辛万苦得来的)标准化因子就可以了。

    2.RLE标准化

    对比着TMM的步骤,RLE也是先过滤基因,先用reads的均值进行标准化,然后用中位数进行标准化。具体标准化步骤如下:

    a.过滤基因

    对reads数取自然对数,之后,求同一个基因在所有样本中的数据取平均数,移除所有count值为0的基因。EdgeR在过滤的时候,算上CPM,只是移除了部分表达量为0的基因,而DESeq2是移除了在任意样本中表达量为0的基因。通过这一步,不仅去掉了表达量低的基因,而且排除掉了组织特异性的基因。

    b.用reads均值校正

    将上一步每个样本的基因计算得到的自然对数的值的分别减去该基因在所有样本中的均值,我们知道对数相减,其实就是原本数值相除。RLE通过这种方式,校正了测序深度。

    c.用中位数标准化

    计算每个样本所有基因的上一步计算得到的中位数,再用每个基因/ ^中位数,四舍五入后,得到标准化后的值。因为中位数受极端表达量的影响很少,所以RLE选择中位数作为参照。

    两个软件在标准化方法上稍微对比一下就能发现一些相似和不同之处。首先,edgeR是依据四分位数挑选的参考样本,之后计算加权值作为标准化因子,而DESeq2是选择将中位数作为标准化因子,但都是为了排除掉过大或过小的异常基因的影响,此外,edgeR是选出了一个参考样本,每个样本都是针对这一样本再去标准化,而DESeq2是选择了整体去进行标准化,这看起来也算作edgeR的一点局限性了。还有其他一些对比,可以用下面这个表格总结一下。

    edgeR和DESeq2标准化方法对比

    输出结果解读

    拿到差异分析的结果,最需要关注的几个值包括logFoldchange(logFC),PValue,FDR。logFC,就是实验组和对照组的表达量相除的结果取了log2后的值。正就是上调,负就是下调。Pvalue就是相对应的统计方法计算后的p值,结果会以科学记数法给出。FDR值,是假阳性发现率,是对P值的进一步校正。

    通常将|logFC|>1,FDR<0.05作为阈值,满足条件的基因为显著差异的基因。也可以根据实际情况,适当放宽阈值。

    1.EdgeR

    在对表达量矩阵标准化之后,由于负二项分布模型需要均值和离散值两个参数去拟合,还要估计数据的离散度,有了模型之后才能进行后续检验。

    edgeR两种模式都采用贝叶斯公式计算离散值,开方后就得到了生物变异系数(BCV)的值。对于没有生物学重复的数据来说,这一步可以人为去设定BCV的值,所以edgeR可以用于无生物学重复的分析。

    最后经典edgeR通过精确检验,GLM edgeR通过似然比检验,得出最后的差异分析的结果。

    edgeR输出结果

    2.DESeq2

    DESeq2和edgeR分析步骤基本一样,得到标准化值之后,就可以做wald检验,得出结果了。

    DESeq2输出结果

    以上就是EdgeR&DESeq2进行差异分析的部分内容,5月21日,基迪奥的在线课堂还会更具体讲解两个软件的原理和异同,我们在直播课堂不见不散。

    直播时间:5月21日(周四)16:00
    通知群:基迪奥Omicsmart转录组2群





    本文作者:基迪奥-萌神

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    新的一天加油!
    回复

    使用道具 举报

  • TA的每日心情

    2017.1.29 15:20
  • 签到天数: 4 天

    连续签到: 1 天

    [LV.2]偶尔看看I

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    0
    积分
    50
    注册时间
    2017.1.13
    在线时间
    14 小时

    发表于 7 天前 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情
    忙~
    7 天前
  • 签到天数: 2 天

    连续签到: 1 天

    [LV.1]初来乍到

    草履虫

    Rank: 2

    主题
    0
    奥币
    5
    积分
    6
    注册时间
    2020.5.14
    在线时间
    2 小时

    发表于 7 天前 | 显示全部楼层
    厉害 学习了
    好好学习
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    yes!
    3 天前
  • 签到天数: 412 天

    连续签到: 1 天

    [LV.9]以坛为家II

    帝王蝶

    Rank: 4

    主题
    1
    奥币
    1705
    积分
    420
    注册时间
    2016.9.4
    在线时间
    106 小时

    发表于 6 天前 | 显示全部楼层
    好好学习了!
    图片并写下今天
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表