查看: 14649|回复: 100

【主题帖】Omishare Tools 中“热图”工具使用教程

  [复制链接]

该用户从未签到

草履虫

Rank: 2

主题
7
奥币
442
积分
36
注册时间
2015.12.8
在线时间
4 小时

发表于 2016.4.14 16:46:51 | 显示全部楼层 |阅读模式
大家好:
     刚刚使用了在 Omicshare Tools中的热图工具,感觉简单易用,很不错。
     其中有两个参数不大理解:
     1. 归一化
      这个参数,我的理解是对基因表达量做一定的处理,然后用于绘图。那么我的问题是,这个均一化处理到底是对数据做什么样的处理。以及该在什么样的情况下使用。


     2. 关于聚类。
      聚类比较好理解。就是在热图的分析结果中,在周边有类似进化树的结构。我的理解是表达模式相似的基因就会被归为一类,在进化树中距离更近。那么,对于这个参数,我该在什么情况下选“yes”,什么情况下选择“no”呢?


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

  • TA的每日心情
    忙~
    2018.9.17 11:33
  • 签到天数: 99 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    45
    奥币
    4192
    积分
    4803
    注册时间
    2015.12.5
    在线时间
    480 小时

    活跃会员论坛元老


    发表于 2016.4.14 19:16:53 | 显示全部楼层
    一、热图工具的参数与原理
    (1)关于均一化的方法原理:
         热图的核心思想是:使用渐变的颜色来代表数值的变化,以便其更加直观。使用RNA-seq的表达量数据绘制热图,最大的问题是不同基因的表达量差异过于巨大。例如:基因A的平均表达量是10,000(所有样本的表达量都在5,000~15,000),而基因B的平均表达量是100(所有样本的表达量都在50~500间波动)。那么问题来了,因为它们数值差异过大,根本不在一个数量级上,那么就很难在一张热图中使用合理的颜色标尺来反映两个基因在不同样本的表达量变化。
           例如在下图中,横坐标代表样本,纵坐标代表基因。由于第一个基因的表达量非常高(相对其他基因),如果表达量不做任何处理,图中只显示这个基因表达量极高(红色),其他基因的表达量较低(黄色)。但到底第一个基因在不同样本间的表达量是如何变化了,就无法显示了。
    图1 不合理的热图
    所以在热图中,我们通常会对基因的表达量做一个归一化的处理。具体的做法,就是将每个基因的表达量减去这个基因在所有样本中表达量的均值,然后除以其标准差。这个处理也叫标准正态化,或Z-score处理(感兴趣的同学可以自己百度一下)。
    这个处理非常巧妙,每一个基因在所有样本中的表达量被等比例缩放。这样处理后,每一个基因在所有样本的表达量,都变成了均值为0,标准差为1的一组值。以上的样本,被如此处理后,效果如下图。因为所有样本的表达量都在1个数量级的水平了,所以使用一套颜色配色体系,就可以很好地展示所有基因在不同样本的变化规律。你可以注意一下图右侧的图例标尺:数值的变动在-2~2之间。所以也有用户问过,怎么看起来不像表达量啊?的确不是表达量,是Z-core处理后的表达量,在0附近分布。
    图2 合理归一化处理后的热图
    (2)均一化的参数选择
    如同刚刚我们所说的,热图的均一化目的是将贫富差距过大的基因,拉到同一个数量级。而通常在画热图的时候,1个基因在不同样本的表达量会在行的方向上分布。所以,我们的均一化处理将按行处理。所以这种情况下,我们的均一化参数选择:row。
    当然,如果你的表达量表中,同一个基因的表达量在列的方向上分布,自然这个参数就要选择 column了。
    注意要点(非常重要):
        1)当数据中,某一行完全相同的时候,标准差=0,那么理论上是无法使用以上的Z-score公式进行均一化(公式中标准差是分母,不能为0)。所以,如果你的数据中包含某个基因(行方向)数值在所有样本完全相同的情况,OS-tools会自动将这一行删除。
        2)如果你的数据只有两列,那么使用按行归一化的话,图形将很丑陋,如下图:

        图3  略丑陋的双列热图
          原因是当每行只有两个数值的时候,任何两个不同的数值标准正态均一化后,都会变成-1和1。所以,会产生上述的图形(只有两种颜色)。面对这种类型的数据,建议直接计算每行两个数值的倍数的log2值,然后使用OS-tools画单列的热图。  
         当然, 单列热图也可以使用R语言的pheatmap包绘制,并通过一个函数控制0点的位置,在另一个R语言绘图的主题帖中也有介绍。
         【案例分析】以差异倍数绘制单列热图代码


    (3)聚类的原理
         聚类的方法很多。这里我就不花大量篇幅去解释了。我们用R语言pheatmap包,默认情况下将利用表达量信息计算两两样本间的欧氏距离,然后利用欧式距离实现样本的聚类。 如同上图的聚类效果,简单说来,在基因完成归一化处理后,如果我们对行聚类(在上图中也就是对基因聚类),那么基因的顺序就会被重排。表达规律比较相似的基因将会被排在一起。表达模式差异越大的基因,则会远离。类似的,如果对列聚类(在上图中也就是对样本聚类),那么样本的顺序将会被重排,表达模式比较相似的样本自动会被归为一类。
           如上图,共有11个样本的约40个基因被用于绘制热图。从聚类的效果来看,11个样本可以归为两类,其实就是对应病人和正常人。40个基因也被归为两类,分别是病人组上调或下调表达的基因。
    (4)聚类参数什么情况下使用
    聚类的本质就是重排序,所以我们应该按照实际情况选择是否聚类。
         a)需要聚类的情况:
         需要对样本或基因按照表达模式分类,那么请选择聚类。例如,上图中需要对正常人和病人利用基因表达量进行分类,那么的确应该选择聚类。
         另外,聚类的结果就是相似的东西被排布在一起,所以聚类后的图形也更加有序和美观。
         b)不需要聚类的情况:
         在某些情况下,我们只是需要使用热图来直观呈现基因在样本中的变化规律,而样本的顺序是我们提前定义好的,那么则要考虑将聚类功能关闭。
           例如,在以下的热图中,选择了对行(基因)聚类,不对列(样本)聚类。那是因为作者希望通过聚类,将表达模式相似基因归为一类在图中展示,所以基因聚类选择yes。而样本(列)是作者提前排好序的,是小鼠三个组织在6个发育阶段的样本。因为样本是提前排好序的,当然作者不希望这个顺序被打乱,所以列选择不聚类。
           备注:图中的分类标签,必须使用R包 pheatmap绘制热图才能添加。
    图4 基因聚类但样本不聚类的例子。
           还有两个方向都不聚类的例子。例如在下图中,X轴是1个实验处理后0h、5h、10h的样本,是作者提前排好序的。本意是想呈现相关基因在梯度时间水平的变化规律。当然,作者不想这个顺序被重新排布了,所以列方向的聚类选择:no。在y轴方向,这些基因也是作者提前按照其所属的基因家族排过序的,当然也不想其顺序被打乱,所以行聚类也是选择no。
    图5 两个方向都不聚类的例子
    (5)其他参数

         工具中的其他参数还包括:
         颜色选择:选择绘制热图的色系。考虑到绿红的色系,对红绿色盲来说区分有些困难,某些杂志不接受绿红色系。建议用户使用蓝红灯其他渐变色系;
         字体大小:当热图样本、基因数太多的时候,可以通过减少字体大小来保证正常显示;
         格子高、宽:主要为了美观而调整;
         格子上是否显示数字:是否将表达量的数值写在格子中,就看用户自己选择了。
         画出格子边界:如果相邻的格子颜色相似,可以通过画出边界来提高区分度。在格子数较少的时候,建议画出格子边界会更加美观。

    二、数据准备
         任何与丰度相关的表达量数据,都可以作为热图的输入数据。输入格式的形式,可以参考范例文件。在列和行的方向,一般分别对应样本和元素(元素可能是基因、环境指标、OTU... ..)。OS-tools对数据格式的要求,可以参考主题帖的要求,避免因为格式不对而影响大家的使用:
         OS-tools 常见使用错误(不定期更新)
    http://www.omicshare.com/forum/thread-660-1-12.html
    (出处: OmicShare Forum)
    三、结果解读
        热图分析的结果只有一张图形。热图中其实包含两类信息:
        (1)丰度高低和丰度变化趋势
        每个格子的颜色代表了对应的元素(一般为基因)的丰度。因为相比数字,人类对颜色更加敏感。所以热图是一种直观友好的反应样本丰度变化趋势的绘图方法。但要注意:这个丰度通常是均一化后的丰度。如同上文提到的,标尺变化范围也是代表均一化后的数值的变异范围。
        当某一行(列)有多个格子的时候,我们就可以从颜色变化趋势中看出这一行(列)的丰度变化趋势;
        (2)聚类关系
         如同上文,如果使用聚类参数,则可以热图中看到样本或元素(基因)的基于丰度的聚类关系。
    四、应用实例
         目前大家或许更多在RNA-seq类的项目中使用热图,来反应基因表达的变化规律。但其实热图在二代测序数据中,应用面很广。包括:呈现:重测序中不同样本的CNV变化、16s rDNA测序中的OUT丰度。另外,在其他生物学实验中,也可以使用。例如:呈现不同地点的多个生态指标的变化规律。在不同的应用情况下,使用者要注意合理选择:均一化 和 聚类这两个参数。
    五、引用
      由于OS-tools目前还没有发表文章(在我们计划中)。如果大家发表的文章中要引用OS-tools,可以采用以下方法引用:  
    (1) 如果你使用了OS-tools多个工具,比较宽泛的引用说明可以使用以下说法:
      XXXX analysis was performed using the OmicShare tools,a free online platform for data analysis (www.omicshare.com/tools)
    (2)如果你单就绘制热图进行引用说明,可以更具体一些:
      heatmap  was plotted using the OmicShare tools,a free online platform for data analysis (www.omicshare.com/tools)



    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    回复 支持 6 反对 1

    使用道具 举报

  • TA的每日心情
    忙~
    2018.9.7 08:32
  • 签到天数: 81 天

    连续签到: 4 天

    [LV.6]常住居民II

    中华鲟

    Rank: 5Rank: 5

    主题
    14
    奥币
    1642
    积分
    810
    注册时间
    2015.12.29
    在线时间
    95 小时

    发表于 2016.4.14 23:01:06 | 显示全部楼层
    周老师讲得好!学习了!
    拖延症患者
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    yes!
    2018.9.20 22:16
  • 签到天数: 39 天

    连续签到: 1 天

    [LV.5]常住居民I

    钵水母

    Rank: 3Rank: 3

    主题
    3
    奥币
    435
    积分
    145
    注册时间
    2016.3.10
    在线时间
    83 小时

    发表于 2016.4.15 12:51:25 | 显示全部楼层
    被这个问题困扰了很久,终于明白了
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2017.4.30 10:09
  • 签到天数: 188 天

    连续签到: 1 天

    [LV.7]常住居民III

    中华鲟

    Rank: 5Rank: 5

    主题
    7
    奥币
    1381
    积分
    623
    注册时间
    2016.1.21
    在线时间
    94 小时

    发表于 2016.4.15 20:50:41 | 显示全部楼层
    周老师讲的很详细
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    忙~
    2018.10.9 08:32
  • 签到天数: 651 天

    连续签到: 1 天

    [LV.9]以坛为家II

    迅猛龙

    Rank: 8Rank: 8

    主题
    0
    奥币
    2384
    积分
    1109
    注册时间
    2016.1.15
    在线时间
    248 小时

    活跃会员


    发表于 2016.4.16 09:36:40 | 显示全部楼层
    终于明白了
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2017.7.10 18:10
  • 签到天数: 67 天

    连续签到: 1 天

    [LV.6]常住居民II

    帝王蝶

    Rank: 4

    主题
    7
    奥币
    441
    积分
    297
    注册时间
    2016.4.14
    在线时间
    107 小时

    发表于 2016.4.16 21:05:24 | 显示全部楼层
    那表达量聚类就不用 log转化了吧,
    什么时候需要log转化呢。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    忙~
    2018.9.17 11:33
  • 签到天数: 99 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    45
    奥币
    4192
    积分
    4803
    注册时间
    2015.12.5
    在线时间
    480 小时

    活跃会员论坛元老


    发表于 2016.4.17 11:33:11 | 显示全部楼层
    yang80 发表于 2016.4.16 21:05
    那表达量聚类就不用 log转化了吧,
    什么时候需要log转化呢。

    已经 z-score处理的,数据的离散度已经比较小了。当然不用log转化。
    log 转化属于其他情况而定。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2017.1.2 12:39
  • 签到天数: 37 天

    连续签到: 1 天

    [LV.5]常住居民I

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    489
    积分
    60
    注册时间
    2016.3.21
    在线时间
    10 小时

    发表于 2016.4.17 12:45:52 | 显示全部楼层
    {:6_313:解释的简单易懂
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2017.7.10 18:10
  • 签到天数: 67 天

    连续签到: 1 天

    [LV.6]常住居民II

    帝王蝶

    Rank: 4

    主题
    7
    奥币
    441
    积分
    297
    注册时间
    2016.4.14
    在线时间
    107 小时

    发表于 2016.4.17 22:16:50 | 显示全部楼层
    得到的热图的底部会出现一些数字,每个样品对应的底部都有一个,不明白是什么意思。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2017.2.26 13:29
  • 签到天数: 218 天

    连续签到: 1 天

    [LV.7]常住居民III

    迅猛龙

    Rank: 8Rank: 8

    主题
    10
    奥币
    2971
    积分
    1192
    注册时间
    2016.4.7
    在线时间
    213 小时

    活跃会员突出贡献论坛元老


    发表于 2016.4.19 15:36:52 | 显示全部楼层
    我发现周老师真的很合适当老师
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    忙~
    2018.9.17 11:33
  • 签到天数: 99 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    45
    奥币
    4192
    积分
    4803
    注册时间
    2015.12.5
    在线时间
    480 小时

    活跃会员论坛元老


    发表于 2016.4.20 01:57:01 | 显示全部楼层
    yang80 发表于 2016.4.17 22:16
    得到的热图的底部会出现一些数字,每个样品对应的底部都有一个,不明白是什么意思。 ...

    把图贴出来看看。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    忙~
    2018.9.17 11:33
  • 签到天数: 99 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    45
    奥币
    4192
    积分
    4803
    注册时间
    2015.12.5
    在线时间
    480 小时

    活跃会员论坛元老


    发表于 2016.4.20 01:57:24 | 显示全部楼层
    zhouqian2617 发表于 2016.4.19 15:36
    我发现周老师真的很合适当老师

    我的家族一堆老师,也有部分遗传吧。
    回复 支持 1 反对 0

    使用道具 举报

  • TA的每日心情

    2017.2.26 13:29
  • 签到天数: 218 天

    连续签到: 1 天

    [LV.7]常住居民III

    迅猛龙

    Rank: 8Rank: 8

    主题
    10
    奥币
    2971
    积分
    1192
    注册时间
    2016.4.7
    在线时间
    213 小时

    活跃会员突出贡献论坛元老


    发表于 2016.4.21 15:57:37 | 显示全部楼层
    晒晒我的热图

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    吃饭
    2018.4.13 09:13
  • 签到天数: 148 天

    连续签到: 1 天

    [LV.7]常住居民III

    中华鲟

    Rank: 5Rank: 5

    主题
    9
    奥币
    1300
    积分
    533
    注册时间
    2016.4.12
    在线时间
    51 小时

    发表于 2016.4.23 14:58:28 | 显示全部楼层
    这样讲解 我们就很清楚的理解啦
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    草履虫

    Rank: 2

    主题
    0
    奥币
    352
    积分
    35
    注册时间
    2016.4.23
    在线时间
    1 小时

    发表于 2016.4.23 17:05:15 | 显示全部楼层
    学习了~
    回复

    使用道具 举报

  • TA的每日心情
    害羞
    10 小时前
  • 签到天数: 896 天

    连续签到: 3 天

    [LV.10]以坛为家III

    功夫熊猫

    Rank: 10Rank: 10Rank: 10

    主题
    1
    奥币
    17264
    积分
    3499
    注册时间
    2016.4.25
    在线时间
    767 小时

    灌水之王


    发表于 2016.5.3 08:56:52 来自手机 | 显示全部楼层
    很详细,赞
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2016.6.4 14:21
  • 签到天数: 3 天

    连续签到: 2 天

    [LV.2]偶尔看看I

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    528
    积分
    55
    注册时间
    2016.4.22
    在线时间
    30 小时

    发表于 2016.5.7 11:11:45 | 显示全部楼层
    果然是专家 我这种小白看了都明白了
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2016.6.4 14:21
  • 签到天数: 3 天

    连续签到: 2 天

    [LV.2]偶尔看看I

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    528
    积分
    55
    注册时间
    2016.4.22
    在线时间
    30 小时

    发表于 2016.5.7 11:13:12 | 显示全部楼层

    24h上调 和48 72 下调
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2016.8.26 08:30
  • 签到天数: 46 天

    连续签到: 1 天

    [LV.5]常住居民I

    钵水母

    Rank: 3Rank: 3

    主题
    1
    奥币
    672
    积分
    83
    注册时间
    2016.1.14
    在线时间
    27 小时

    发表于 2016.5.11 11:02:58 | 显示全部楼层
    又学习了!O(∩_∩)O哈哈~
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表