查看: 6730|回复: 50

【主题帖】OS Tools-差异分析工具的使用与解读详细教程

  [复制链接]
  • TA的每日心情

    2016.10.21 09:23
  • 签到天数: 87 天

    连续签到: 1 天

    [LV.6]常住居民II

    版主

    Rank: 10Rank: 10Rank: 10

    主题
    17
    奥币
    3054
    积分
    1137
    注册时间
    2015.12.7
    在线时间
    142 小时

    优秀版主


    发表于 2016.6.13 16:51:38 | 显示全部楼层 |阅读模式
           万众期待的差异分析工具在上上周闪耀登场后,相信大家都或多或少用过了,可能会不理解其中的原理,不明白结果图表的意思。那么,这个帖子就是扫盲贴!详细说明差异分析的基本原理、使用方法与结果解读~~
    一、什么是差异分析?
          顾名思义,差异分析就是分析两组数据是否有差异。比如,北方人的身高是否显著高于南方人的身高?这就涉及到“显著”的定义了。何为显著?高2公分为显著,还是高5公分才为显著?这当然要用统计学来说话。通常的做法是对两组数据的差异倍数进行统计学检验,得到的P value达到某个阈值,则为显著差异。在转录组的基因差异表达分析中,一般的筛选标准是基因表达差异倍数大于2、并且FDR≤0.05为显著差异的基因。当然这个标准也可以根据实际数据调整,如差异倍数下调为1.5、FDR≤0.01等。备注:FDR 又称为 Q value 或 adjusted p value, 关于p value和 FDR的关系,可以阅读论坛另一个主题帖:
    第11期在线交流“谈谈RNA-seq和GWAS中的pvalue和Qvalue”【视频】

    二、差异分析的原理
          差异分析的原理,就是差异分析软件的工作原理。了解差异分析的原理,有助于我们更好地理解差异分析的本质、数据的意义和分析的过程。
          差异分析的原理就是判断组间(处理)差异是否显著大于组内(误差)差异。比如我有两组样本,高浓度镉离子处理的拟南芥,和正常对照(没有处理)的拟南芥,每组三个植株。由于不同个体间会有个体差异,那么如何判断基因表达差异是由个体间差异导致的还是处理导致的?这就涉及到组间差异和组内差异的比较了。一般差异分析软件如edgeR、DESeq的原理就是比较组间差异和组内差异。所以说通常情况下,如果没有重复,则组内差异无法计算,这就是为什么我们一直强调要有生物学重复样本的原因。但是软件在没有重复样本的时候也可以计算组内差异,是通过公式预估或者人为预设误差差异的。所以说现在不管有没有重复样本,都是可以进行差异分析的,只是有重复样本的话,才能准确估算个体差异带来的误差,差异分析结果才会更准确。

         通过组内差异和组间差异的比较,我们就可以判断处理效应是否存在。显著与否还是要依赖于统计检验的结果。计算的原理方法可以参考第14期在线交流课堂:RNA-seq中的基因表达量计算和差异表达分析(下),在这个交流视频里,周老师已经把差异分析的原理讲得很详细了,建议大家再认真学习一遍。
       关于二代数据差异分析,再强调一点:由于二代数据得到的基因表达丰度是reads count,属于离散型分布,所以主流的方法是用负二项分布(属于离散型分布)模型进行检验。主流差异分析软件edgeR、Deseq都采用负二项分布。二代数据工具能使用t 检验、方差分析等这些基于正态分布模型的检验方法。
       Omicshare-Tools差异分析工具的内核使用的目前使用最广泛的差异分析工具:edgeR[1]

    三、数据准备
          明白差异分析的方法原理后,那就开始进行基因差异分析吧!总共需要准备三份文件:基因count表格文件、组间比较文件、分组信息文件。注意这三份文件都必须为制表符分隔的文本文件(*.txt)格式。

    1. 基因count表格文件
         就是用来进行差异分析的数据文件。注意,我们的差异分析工具进行分析时输入的是基因的read count数,不是基因表达量RPKM或FPKM值!为什么呢?在上面提到的第14期在线交流课堂的PPT里就有答案(提示:在第25页~~)。基于此,只要有基因read count数,就可以做差异表达分析,这就是说,miRNAlncRNA等数据也是可以用我们的差异分析工具来分析滴~~

    数据格式:
        第一行为样本ID,第一列为基因ID,表中的数值为每个样本的基因count数(即reads数目)。
    下面为本次测试的数据文件,共三组样本,每组两个重复:


    2. 组间比较文件
          即列出要进行差异分析的比较组的文件。有两列,在进行差异分析时是第二列比上第一列。如第一列是A组,第二列是B组,则为B组比上A组。一行为一个比较组。如下表:


    3. 分组信息文件
          即定义分组信息的文件。第一列为样本名,第二列为所在的组名。注意:即使没有实验重复,依然需要填写这个文件(1个样本为1组)
    另外,注意一点:差异分析允许不同实验组的重复数不同。例如:3 vs 1,2 vs 3 这样不同重复数的比较是被允许的。


    四、参数设置
    准备好数据后,接着进行参数设置。

    1. 检验值
         即用来判断差异显著性的统计检验值,可选择P值或Q值。由于我们的差异分析工具采用的是edgeR软件,P值为负二项分布计算得到,Q值是P值经过多重检验校正得到的。选择Q值则相应严格一些,可根据实际情况调整。


    2. 检验阈值
          即上面所选P值或Q值的阈值,通常选择0.05,也可以根据实验具体情况适当降低或提高阈值,如0.01、0.001等。比如差异基因太多,则可以把阈值提高到0.01。
    备注:关于Q值的概念,以及如何设定过滤标准,依然可以参考论坛另一个主题帖:
    第11期在线交流“谈谈RNA-seq和GWAS中的pvalue和Qvalue”【视频】

    3. 差异倍数
          即两组样本基因表达量的差异倍数,在基因差异表达分析中一般设定2倍。差异倍数大于设定阈值并且检验阈值(P值或Q值)小于设定阈值的基因将被定义为差异表达基因。

    4. 离散系数
          用于描述实验重复样本间的表达量变异程度(离散程度),即组内差异。因为差异分析的本质是判断组间差异是否显著大于组内差异,因此实验重复间的离散系数是表达差异分析检验的基础数值。在有实验重复的情况下,离散系数由软件直接估算,该参数不需要填写。在没有实验重复的情况下,则需要人为设定离散系数,以便软件可以完成检验。如果你的实验样本无实验重复,可根据自己材料的特点设定离散系数。一般而言,实验重复间的差异越大,离散系数越大。edgeR软件给出的建议为:人类样本(普遍杂交,遗传多样性较高)设定为0.4,遗传背景相似的模式生物(自交、近交为主,遗传多样性低)设定为0.1,技术重复设定为0.01,其他情况默认为0.01。

    五、结果解读
    1. 所有差异比较组结果柱状图(edgeR.stat.v.png/edgeR.stat.h.png)

    这两个图展示了所有比较组的差异基因结果,分为横向和竖向两个柱状图。红色代表上调基因,绿色代表下调基因。

    2. 差异分析结果表(*-vs-*.edgeR.all.xls和*-vs-*.edgeR.filter.xls)
           这两个表是比较组的差异分析结果表,其中*-vs-*.edgeR.all.xls是所有基因的差异分析结果,*-vs-*.edgeR.filter.xls是显著差异的差异分析结果,即符合之前检验阈值设定和差异倍数设定的差异表达基因。


        其中,第1列为基因ID;第2~5列为各样本基因read count数;第6列为基因表达量差异倍数的log2值,注意,这里的差异倍数并不是简单的用count数相除的,而是用样本总read count数进行过归一化计算出来的基因表达量,再计算差异倍数的;第7列为P值;第8列为FDR值(Q值)。

    3. 差异基因火山图(.volcano.png)
    火山图用来显示两组样品差异基因的显著性。
    横坐标表示两个分组间的差异倍数对数值,纵坐标表示两个分组差异的FDR的负Log10值,红色表示表达量显著上调,绿色表示表达量显著下调,黑色表示表达量变化不显著。


    六、引用
        由于OS-tools使用的是权威的差异分析软件edgeR,因此大家如果使用了我们的omicshare tools云工具网站进行差异分析,那么在文章中引用中务必要申明使用的是edgeR。method部分可以这样引用:Differential expression analysis was performed using edgeR[1] in the OmicShare tools,a free online platform for data analysis (www.omicshare.com/tools)。The default parameters of edgeR were used, and Differential expression genes (DEGs) were selected according to log2 fold change >=1 and Q value > 0.05. (如果你的项目没有重复,继续补上以下这句话) As There was no replicate in this study, biological coefficient of variation (BCV) which was the square-root of dispersions was  set to XXX(这个数字就是软件中离散系数那一栏填写的内容,默认是0.01)following the suggestion of edgeR official manual.

    参考文献:
    [1]Robinson M D, McCarthy D J, Smyth G K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data[J]. Bioinformatics, 2010, 26(1): 139-140.







    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    回复

    使用道具 举报

  • TA的每日心情
    yes!
    2018.11.19 15:43
  • 签到天数: 210 天

    连续签到: 1 天

    [LV.7]常住居民III

    中华鲟

    Rank: 5Rank: 5

    主题
    15
    奥币
    1693
    积分
    906
    注册时间
    2016.4.26
    在线时间
    190 小时

    发表于 2016.6.13 17:16:56 | 显示全部楼层
    赞一个!!~
    回复

    使用道具 举报

  • TA的每日心情

    2018.8.15 10:33
  • 签到天数: 245 天

    连续签到: 1 天

    [LV.8]以坛为家I

    中华鲟

    Rank: 5Rank: 5

    主题
    13
    奥币
    1657
    积分
    791
    注册时间
    2016.4.28
    在线时间
    134 小时

    发表于 2016.7.5 14:13:07 | 显示全部楼层
    请问 老师 问什么 按照这个 教程 总是出现运行错误 我的是三组 每组三个生物学重复

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2016.10.21 09:23
  • 签到天数: 87 天

    连续签到: 1 天

    [LV.6]常住居民II

    版主

    Rank: 10Rank: 10Rank: 10

    主题
    17
    奥币
    3054
    积分
    1137
    注册时间
    2015.12.7
    在线时间
    142 小时

    优秀版主


     楼主| 发表于 2016.7.5 14:27:38 | 显示全部楼层
    小王同学 发表于 2016.7.5 14:13
    请问 老师 问什么 按照这个 教程 总是出现运行错误 我的是三组 每组三个生物学重复
    ...

    看了报错信息,感觉是你的样本名和组名出错,你再仔细看看教程检查一下文件有没有错误吧。还是不行的话就把任务名报上来,我们帮你看看。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2018.8.15 10:33
  • 签到天数: 245 天

    连续签到: 1 天

    [LV.8]以坛为家I

    中华鲟

    Rank: 5Rank: 5

    主题
    13
    奥币
    1657
    积分
    791
    注册时间
    2016.4.28
    在线时间
    134 小时

    发表于 2016.7.5 14:40:04 | 显示全部楼层
    基迪奥小师妹 发表于 2016.7.5 14:27
    看了报错信息,感觉是你的样本名和组名出错,你再仔细看看教程检查一下文件有没有错误吧。还是不行的话就 ...

    非常感谢你 老师 我再试试  快蒙了我
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2018.8.15 10:33
  • 签到天数: 245 天

    连续签到: 1 天

    [LV.8]以坛为家I

    中华鲟

    Rank: 5Rank: 5

    主题
    13
    奥币
    1657
    积分
    791
    注册时间
    2016.4.28
    在线时间
    134 小时

    发表于 2016.7.5 14:52:34 | 显示全部楼层
    基迪奥小师妹 发表于 2016.7.5 14:27
    看了报错信息,感觉是你的样本名和组名出错,你再仔细看看教程检查一下文件有没有错误吧。还是不行的话就 ...

    老师 问题解决了。 count 文件没问题。 组间比较文件 和 分组信息文件 格式 不对 造成的。 谢谢你
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2018.8.12 10:16
  • 签到天数: 74 天

    连续签到: 1 天

    [LV.6]常住居民II

    帝王蝶

    Rank: 4

    主题
    18
    奥币
    171
    积分
    293
    注册时间
    2016.6.24
    在线时间
    117 小时

    发表于 2016.7.22 16:42:48 | 显示全部楼层
    请问用OS Tools-差异分析工具分析出来的结果怎么不分上调下调啊,能不能优化一下。顺便,问个白痴问题,OS Tools-差异分析工具分析出来的结果上调的条件是什么,下调的条件是什么谢谢
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2016.10.21 09:23
  • 签到天数: 87 天

    连续签到: 1 天

    [LV.6]常住居民II

    版主

    Rank: 10Rank: 10Rank: 10

    主题
    17
    奥币
    3054
    积分
    1137
    注册时间
    2015.12.7
    在线时间
    142 小时

    优秀版主


     楼主| 发表于 2016.7.22 17:11:00 | 显示全部楼层
    IMP1990 发表于 2016.7.22 16:42
    请问用OS Tools-差异分析工具分析出来的结果怎么不分上调下调啊,能不能优化一下。顺便,问个白痴问题,OS  ...

    这不就分了上下调了吗?

    如果你的比较组是A vs B(即B比A),那么上调就是在B中的表达量要比在A中高啊!反应到FC(fold change)上面就是大于1啊!然后换算成log2(FC)就是大于0 啊!那么下调的log2(FC)就是小于0啊! 你可以在*.edgeR.all.xls或*.edgeR.filter.xls中自己筛选

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2018.3.9 10:16
  • 签到天数: 96 天

    连续签到: 1 天

    [LV.6]常住居民II

    超级版主

    Rank: 12Rank: 12Rank: 12

    主题
    18
    奥币
    2223
    积分
    1297
    注册时间
    2016.3.11
    在线时间
    162 小时

    突出贡献优秀版主荣誉管理


    发表于 2016.7.22 17:25:17 | 显示全部楼层
    哎这个论坛真是做的鞠躬尽瘁了
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2018.8.12 10:16
  • 签到天数: 74 天

    连续签到: 1 天

    [LV.6]常住居民II

    帝王蝶

    Rank: 4

    主题
    18
    奥币
    171
    积分
    293
    注册时间
    2016.6.24
    在线时间
    117 小时

    发表于 2016.7.22 21:05:02 | 显示全部楼层
    基迪奥小师妹 发表于 2016.7.22 17:11
    这不就分了上下调了吗?

    如果你的比较组是A vs B(即B比A),那么上调就是在B中的表达量要比在A ...

    谢谢老师
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2018.8.12 10:16
  • 签到天数: 74 天

    连续签到: 1 天

    [LV.6]常住居民II

    帝王蝶

    Rank: 4

    主题
    18
    奥币
    171
    积分
    293
    注册时间
    2016.6.24
    在线时间
    117 小时

    发表于 2016.7.22 22:59:37 | 显示全部楼层
    论坛的老师们辛苦了
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2018.8.12 10:16
  • 签到天数: 74 天

    连续签到: 1 天

    [LV.6]常住居民II

    帝王蝶

    Rank: 4

    主题
    18
    奥币
    171
    积分
    293
    注册时间
    2016.6.24
    在线时间
    117 小时

    发表于 2016.7.24 08:43:23 | 显示全部楼层
    老师您好,咱们平台的这个差异基因分析工具做出来的火山图是用FDR来做,而筛选条件选得是Q-value,这会不会有问题?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2016.10.21 09:23
  • 签到天数: 87 天

    连续签到: 1 天

    [LV.6]常住居民II

    版主

    Rank: 10Rank: 10Rank: 10

    主题
    17
    奥币
    3054
    积分
    1137
    注册时间
    2015.12.7
    在线时间
    142 小时

    优秀版主


     楼主| 发表于 2016.7.27 16:17:02 | 显示全部楼层
    IMP1990 发表于 2016.7.24 08:43
    老师您好,咱们平台的这个差异基因分析工具做出来的火山图是用FDR来做,而筛选条件选得是Q-value,这会不会 ...

    如果运行任务时检验值选择的是P值,那么火山图的纵坐标是P值;如果检验值选择的是Q指,那么火山图的纵坐标就是FDR。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    吃饭
    2018.5.4 14:25
  • 签到天数: 609 天

    连续签到: 1 天

    [LV.9]以坛为家II

    版主

    Rank: 10Rank: 10Rank: 10

    主题
    52
    奥币
    5990
    积分
    1270
    注册时间
    2016.1.8
    在线时间
    273 小时

    突出贡献优秀版主论坛元老


    发表于 2016.8.19 11:14:49 | 显示全部楼层
    每天进步一点点
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    yes!
    1 小时前
  • 签到天数: 380 天

    连续签到: 1 天

    [LV.9]以坛为家II

    中华鲟

    Rank: 5Rank: 5

    主题
    13
    奥币
    2474
    积分
    959
    注册时间
    2016.9.7
    在线时间
    136 小时

    突出贡献


    发表于 2016.9.22 07:11:11 | 显示全部楼层
    进步一点点
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2017.10.28 19:40
  • 签到天数: 31 天

    连续签到: 2 天

    [LV.5]常住居民I

    钵水母

    Rank: 3Rank: 3

    主题
    3
    奥币
    676
    积分
    120
    注册时间
    2016.7.21
    在线时间
    32 小时

    发表于 2016.11.7 01:12:51 | 显示全部楼层
    “DEG差异基因分析的软件,这样我们就可以自己调参数根据自己的需要来筛选差异基因了!”这个工具在哪里有?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2016.10.21 09:23
  • 签到天数: 87 天

    连续签到: 1 天

    [LV.6]常住居民II

    版主

    Rank: 10Rank: 10Rank: 10

    主题
    17
    奥币
    3054
    积分
    1137
    注册时间
    2015.12.7
    在线时间
    142 小时

    优秀版主


     楼主| 发表于 2016.11.8 10:32:20 | 显示全部楼层
    flytyx 发表于 2016.11.7 01:12
    “DEG差异基因分析的软件,这样我们就可以自己调参数根据自己的需要来筛选差异基因了!”这个工具在哪里有 ...

    不就是差异分析工具吗?不懂你问的是什么……
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2017.12.17 10:10
  • 签到天数: 123 天

    连续签到: 1 天

    [LV.7]常住居民III

    帝王蝶

    Rank: 4

    主题
    0
    奥币
    387
    积分
    259
    注册时间
    2016.12.20
    在线时间
    138 小时

    发表于 2016.12.26 14:09:02 | 显示全部楼层
    学习了很多很多!感激!
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    草履虫

    Rank: 2

    主题
    0
    奥币
    89
    积分
    15
    注册时间
    2017.1.12
    在线时间
    13 小时

    发表于 2017.2.18 21:50:06 | 显示全部楼层
    有老师在吗,任务完成了,但是结果下不下来,文件里只有out.log
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2016.10.21 09:23
  • 签到天数: 87 天

    连续签到: 1 天

    [LV.6]常住居民II

    版主

    Rank: 10Rank: 10Rank: 10

    主题
    17
    奥币
    3054
    积分
    1137
    注册时间
    2015.12.7
    在线时间
    142 小时

    优秀版主


     楼主| 发表于 2017.2.21 09:24:02 | 显示全部楼层
    Yang Huiquan 发表于 2017.2.18 21:50
    有老师在吗,任务完成了,但是结果下不下来,文件里只有out.log

    请问问题解决了吗?还没解决的请你提供任务编号,我们帮你查下。下次有任务上的问题可以直接在QQ交流群中提出,这样比较快得到回复。这几天我们的云平台在改版升级,造成了不稳定,对你造成不便还请原谅啊!
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表