查看: 215|回复: 9

[转录组] 基因表达差异分析的参数调整(下)

[复制链接]
  • TA的每日心情
    忙~
    5 天前
  • 签到天数: 1 天

    连续签到: 1 天

    [LV.1]初来乍到

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    43
    奥币
    97
    积分
    443
    注册时间
    2019.7.8
    在线时间
    88 小时

    发表于 2019.11.29 11:14:02 | 显示全部楼层 |阅读模式
    ​在上一篇文章里,我们介绍了转录组差异分析的原理。在这篇文章里我们继续探讨如何将这些知识用于具体的实践中。

    影响差异显著性的因素

    回顾下上一篇文章说的。


    不同组样本间的平均差异(V1)= 随机误差效应 + 处理效应组内的重复样本间平均差异(V2) = 随机误差效应要证明处理组间的基因差异显著,就是证明处理效应存在。即,在统计学水平证明:V1 > V2或者说V1/V2 >1。 理论上说,大部分精心设计的实验处理对个体都是有影响的。问题只是实验处理的效应是否可以在统计学水平达到显著。对于转录组差异分析,影响基因表达差异显著性的因素包括4个。

    (1)处理效应的大小
    就是某个基因对实验处理的应答程度。按照上面的逻辑,处理效应越大,则V1越显著大于V2。处理效应大小与实验方式有关。

    某些温和的实验,比如给个体服用维生素E,理论上给个体造成的刺激就非常小。而某些实验,比如给细胞培养基中加入强刺激的药物,植物感染强致病性的细菌,这对细胞的整个基因调控体系都将造成巨大的应激。很自然的,这种情况导致的差异基因不但数量多,而且差异倍数往往很大。


    (2)随机误差的大小

    同样的,在处理效应固定的情况下,随机误差越小,则V1/V2的值越大,则基因的差异显著性越高。随机误差的大小,一般在样本相关性分析(相关性热图)或PCA分析的结果中可以呈现出来。

    如下图是PCA分析的结果示意图。图1a可以看出,样本间的区分更多是处理效应驱动的,随机误差效应贡献度看起来很少(同组样本聚类在一起,不同组样本清晰区分)。而图1b则看起来不同组样本间存在交叠(或者说存在离群样本),说明随机误差也在对样本产生较大的影响。


    图1 PCA结果可以反映样本重复性是否理想

    当然,图1a是理想的结果,即组内样本保持高度一致,组间保持清晰的区分度。实际研究中,类型图1b情况是普遍存在的。要么处理效应不够强烈,无法驱动处理组间产生足够的区分度。或者,由于材料的限制,无法控制随机误差。例如研究采用的是野生采摘的材料,个体生物学背景差异、环境条件无法控制,那么组内样本的一致性就无法保证。

    对于这种情况,有一种备选的策略就是采用混养的策略取样。例如,每组取样30个样本,每10个样本混合,构成3个混合池,由混合池作为3个生物学重复。这样的采样策略,可以不改变处理效应大小的情况下,降低随机误差的大小,从而提高基因差异的显著性。


    当然,出现图1b的情况,不是说实验有问题,而是我们要意识到存在随机误差正在降低实验的检测敏感度。那么,我们需要根据差异分析结果,来判断是否需要做一些调整。


    (3)基因的数量

    在上篇文章,我们提过多重检验矫正(从P值计算FDR值)。理论上,基因数越多,FDR的矫正就越严厉,也会降低分析的显著性。所以,对于无参考基因组物种的de novo转录组研究,需要对组装结果进行去冗余,降低转录本数量。因为太多冗余会降低定量的准确性,也会降低基因差异的显著性。

    (4)实验重复数

    这是统计学通用的原理。组内重复数越高,统计学中的一个关键参数自由度就越高,P值就越显著,那么对微小效应的检测敏感度就越高。例如,某个基因对某个处理效应产生了一个微小的应答,如果实验只有3个重复或许无法得出差异显著的结果。但如果实验重复增加到10个,那么基因差异的显著性可能就能突破显著性的阈值。

    这就解释了为什么模式物种的实验,一般只设置3个重复。而人类的实验(例如,某种疾病的转录组研究),往往重复数会设置到10个、30甚至上百个。因为模式生物遗传背景高度一致,实验室环境也可以控制保持一致,所以处理效应受随机误差干扰少,用3个重复就可以较好检测处理效应(得出足够多的差异显著基因)。但人类采样,年龄、性别、生活环境等往往难以控制,随机误差对处理效应的干扰比较大,如果没有足够多的生物学重复,无法保证采样具有代表性,且难以保证实际存在的处理效应可以达到显著的水平。


    为什么要进行调整以及调整的方法

    什么情况下需要调整

    差异结果需要调整,主要原因就是结果不及预期(任何实验理论上都有预期的嘛),一般就是2种情况:

    (1)差异基因太多,给后续的筛选关键基因带来困难

    比如植物的抗病实验,这么强烈的刺激,往往会导致细胞中上万个基因都会产生差异应答。差异基因太多,可能会让你眼花缭乱无从下手。但这些差异都是客观存在的,你不能人为把它们删了。对于这种情况,我们可以做的包括:

    a) 按照差异倍数对基因进行归类比如对基因按照差异倍数从高到低分级,看不同差异程度的基因在功能上有何区别(功能富集分析)。但我们切不能把差异倍数阈值卡太高(比如4倍),人为减少差异基因数量。


    b) 按照功能分析(富集分析)的结果缩小范围比如锁定一些有意思的通路类型,然后集中讨论解析。


    c)利用组学贯穿缩小范围比如,与m6A-seq、翻译组进行联合分析,找两个组学间存在关联的基因,也可以缩小范围。


    (2)差异基因太少,导致后续的很多分析难以执行

    这才是最要命的问题。因为差异基因的解析,一般还是需要通过功能富集分析的方法,帮助锁定关键通路,从而便于文章讨论。如果你差异基因的数量是几十个甚至个位数,就没法进行有效的功能富集分析(落在每个通路的基因就一两个,无法构成任何有统计学意义的指向性指导)

    差异基因太少的原因

    按照上文介绍的影响差异显著性的因素,导致差异基因太少的原因常见是:
    (1)处理效应太弱
    (2)实验随机误差太大

    所以,我们也只能围绕以上两大核心问题,着手在分析的角度进行调整。毕竟数据已经测完,再讨论采用混样测序,增加重复数等都为时已晚。那从分析的角度,我们可以做什么事情呢?


    (1)适当放宽阈值比如将差异倍数阈值降低到1.5倍,FDR值降低到0.1。这个标准一般是极限了,再宽松容易被审稿人质疑。


    (2)剔除离群样本根据PCA和相关性分析的结果,剔除离群样本,可以降低组内差异(等于降低了随机误差),从而提高结果的显著性。但这个策略也降低了样本重复数,减少了统计检验的自由度。此消彼长,最后是否能增加差异基因的数量,只能试了才知道。


    (3)换用富集分析的方法某些富集分析的方法,不依赖于差异分析的结果,比如GSEA富集分析法。如果差异基因特别少,可以考虑采用GSEA的方法协助锁定核心通路。关于GSEA方法的介绍,在我们Omicshare线上课堂也有介绍。


    图2 GSEA的Omicshare课堂截图

    链接:https://www.omicshare.com/class/home/index/series?id=2

    我们有的工具都有哪些

    好的文章结果,往往是试试出来的。在我们之前的文章里罗列过转录组数据个性解析策略,如下表。对于差异分析结果不理想,我们可能需要从差异倍数、FDR值和剔除样本等不断调试。这个时候,有一个好的工具就非常重要。比如,基迪奥生物开发的OmicsMart在线分析云平台可以用于差异分析结果高效、实时的调整,而不需要任何编程技巧,学习成本几乎为0。这应该是没有生信基础的生物医药研究人员进行自主数据调整解析的最好选择了。


    表1 转录组分析的个性程度和获得方式

    以上不同定制程度转录组数据整理技巧,都包含在基迪奥为期5天的转录组培训班中。我们新一期的转录组培训班2019年12月9日-12月13日进行,名额有限,感兴趣的老师同学现在还可以报名。


    表2 五天转录组培训班的课表

    报名方式:

    方式一:长按图片识别二维码填写信息报名
    方式二:发送“姓名、单位及电话到邮箱contact@genedenovo.com,主题注明“转录组培训班
    方式三:登陆基迪奥线下培训班官网网站进行报名

    培训班官方网站:www.omicshare.com/train
    客服:020-39341079

    本文作者:基迪奥-周老师

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    回复

    使用道具 举报

  • TA的每日心情
    吃饭
    5 小时前
  • 签到天数: 931 天

    连续签到: 7 天

    [LV.10]以坛为家III

    中华鲟

    Rank: 5Rank: 5

    主题
    15
    奥币
    3089
    积分
    840
    注册时间
    2016.7.20
    在线时间
    443 小时

    发表于 2019.11.29 14:04:33 | 显示全部楼层
    感谢楼主的无私奉献
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    吃饭
    11 小时前
  • 签到天数: 31 天

    连续签到: 23 天

    [LV.5]常住居民I

    帝王蝶

    Rank: 4

    主题
    0
    奥币
    496
    积分
    383
    注册时间
    2019.3.19
    在线时间
    7 小时

    活跃会员最佳新人


    发表于 7 天前 | 显示全部楼层
    感谢周老师分享。~
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    吃饭
    11 小时前
  • 签到天数: 38 天

    连续签到: 22 天

    [LV.5]常住居民I

    中华鲟

    Rank: 5Rank: 5

    主题
    2
    奥币
    467
    积分
    614
    注册时间
    2019.10.25
    在线时间
    22 小时

    发表于 7 天前 | 显示全部楼层
    哇,very good。感谢
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    yes!
    昨天 11:18
  • 签到天数: 7 天

    连续签到: 2 天

    [LV.3]偶尔看看II

    钵水母

    Rank: 3Rank: 3

    主题
    3
    奥币
    167
    积分
    64
    注册时间
    2018.8.21
    在线时间
    4 小时

    发表于 7 天前 | 显示全部楼层
    感谢周老师分享。~
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    4 小时前
  • 签到天数: 203 天

    连续签到: 15 天

    [LV.7]常住居民III

    帝王蝶

    Rank: 4

    主题
    0
    奥币
    546
    积分
    223
    注册时间
    2016.12.6
    在线时间
    86 小时

    发表于 7 天前 | 显示全部楼层
    感谢分享,,,,,
    回复

    使用道具 举报

  • TA的每日心情
    吃饭
    2019.11.2 21:41
  • 签到天数: 2 天

    连续签到: 1 天

    [LV.1]初来乍到

    钵水母

    Rank: 3Rank: 3

    主题
    2
    奥币
    212
    积分
    43
    注册时间
    2017.12.20
    在线时间
    14 小时

    发表于 6 天前 | 显示全部楼层
    上下两个结合,我的数据分析不是问题啦!谢谢啦!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    4 小时前
  • 签到天数: 203 天

    连续签到: 15 天

    [LV.7]常住居民III

    帝王蝶

    Rank: 4

    主题
    0
    奥币
    546
    积分
    223
    注册时间
    2016.12.6
    在线时间
    86 小时

    发表于 5 天前 | 显示全部楼层
    敬业无私的楼主
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    忙~
    11 小时前
  • 签到天数: 7 天

    连续签到: 3 天

    [LV.3]偶尔看看II

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    88
    积分
    55
    注册时间
    2019.11.28
    在线时间
    3 小时

    最佳新人


    发表于 4 天前 | 显示全部楼层
    挺有用的
    回复

    使用道具 举报

  • TA的每日心情

    6 小时前
  • 签到天数: 278 天

    连续签到: 2 天

    [LV.8]以坛为家I

    帝王蝶

    Rank: 4

    主题
    0
    奥币
    751
    积分
    223
    注册时间
    2018.1.22
    在线时间
    106 小时

    发表于 4 天前 | 显示全部楼层
    感谢分享
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表