查看: 904|回复: 7

[R语言] 相关性热图还能玩出什么花样?

[复制链接]
  • TA的每日心情

    2020.6.3 17:02
  • 签到天数: 28 天

    连续签到: 1 天

    [LV.4]偶尔看看III

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    153
    奥币
    1465
    积分
    1328
    注册时间
    2019.7.8
    在线时间
    243 小时

    发表于 2020.5.29 10:38:13 | 显示全部楼层 |阅读模式
    关于相关性,表示数据之间的相互依赖关系,但需要注意,数据具有相关性不一定意味着具有因果关系。相关性在组学数据挖掘中应用非常广,如样本的重复检验、基因的共表达分析、微生物群落的共发生网络分析等。

    相关性分析其实较为简单,用R语言自带的cor()函数非常容易计算得到两两变量间的相关系数。下面我们就来看下如何用R语言实现相关性计算并绘制带有显著性星标的相关性热图。
    如果想了解到相关性分析的原理,可以到文末拓展阅读部分复习下相应的知识点。

    1.相关系数计算

    [AppleScript] 纯文本查看 复制代码
    以R自带的数据集mtcars为例,直接计算矩阵或数据框对应列之间的相关性系数。
    #查看范例数据的前6行;
    head(mtcars)



    [AppleScript] 纯文本查看 复制代码
    #计算mtcars数据框的相关性系数;
    cor<- cor(mtcars)
    class(cor)
    #查看得到相关性系数矩阵的前5行,前5列;
    cor[1:5,1:5]



    2.绘图样式


    [AppleScript] 纯文本查看 复制代码
    #安装R包;
    install.packages("corrplot")
    
    #载入相关R包;
    library(corrplot)
    #默认的绘制方法是 "circle",图形的样式还可以是"square"、"ellipse"、"pie"和"color"等,其中method = "number"时,只显示相关性系数;
    corrplot(cor, method = "square")
    



    #可绘制lower、lower、full三种布局方式的热图,当然也可以混合显示;
    corrplot.mixed(cor, lower = "square", upper = "circle", tl.col = "black")

    3.聚类顺序调整

    [AppleScript] 纯文本查看 复制代码
    #常见的排序方式有 "AOE", "FPC", "hclust", "alphabet";
    #"AOE" 是指按特征向量的角度排序(angular order of the eigenvectors);
    #"FPC" 是按照 first principal component 的顺序排序;
    #"hclust"是按照分层聚类的结果排序;
    #"alphabet"按照名称字母顺序排序。
    corrplot(cor, order = "hclust")
    


    [AppleScript] 纯文本查看 复制代码
    #如果是选"hclust",还可以根据聚类结果添加矩形框;
    corrplot(cor, order = "hclust", addrect = 2)
    


    4.调整颜色

    [AppleScript] 纯文本查看 复制代码
    #自定义渐变颜色;
    
    col2 <- colorRampPalette(c("#77C034","white" ,"#C388FE"),alpha = TRUE)
    
    #使用这些渐变颜色;
    #addgrid.col调整网格颜色;
    #outoutline指定图形描边;
    corrplot(cor, order = "hclust", addgrid.col = "grey70",type = "upper",
    outline = "orange",col = col2(100),method = "square",diag = F)
    


    [AppleScript] 纯文本查看 复制代码
    #Tips:这里的col2的对象类型是函数!
    col2(100)
    class(col2)
    #自定义文本标签颜色:
    #tl.* 系列参数用于调整文本标签;
    #tl.col (text label color) 调整文字标签颜色;
    #tl.srt (text label string rotation) 调标签角度(横轴方向);
    #tl.cex调字体大小;
    #使用r自带颜色集cm.colors的效果如下;
    corrplot(cor, order = "hclust",col = cm.colors(100),method = "square",
    tl.col="black",tl.cex = 0.8)
    



    5.图例调整

    [AppleScript] 纯文本查看 复制代码
    # cl.* 系列参数用于调整图例;
    #cl.ratio 调整颜色条的宽度;
    #cl.align调整颜色条刻度标签的对齐方式;
    #cl.length指定颜色条标签个数;
    corrplot(cor, order = "hclust",col = col2(100),method = "circle",
    cl.length=5,addgrid.col = NA,outline = "grey60",
    tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2)


    [AppleScript] 纯文本查看 复制代码
    #绘制上三角热图;
    corrplot(cor, order = "hclust",col = col2(100),method = "square",
    cl.length=5, type = "upper",diag = F,
    tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2)
    


    [AppleScript] 纯文本查看 复制代码
    #去掉图例和标签;
    corrplot(cor, order = "hclust",col = col2(100),method = "square",
    tl.col="black",tl.cex = 0.8,cl.pos = "n",tl.pos = "n")


    6.显示数值

    [AppleScript] 纯文本查看 复制代码
    #添加显著性标记:
    #使用cor.mtest做显著性检验;
    res1 <- cor.mtest(mtcars, conf.level = .95)
    res2 <- cor.mtest(mtcars, conf.level = .99)
    
    #提取p值矩阵;
    p.mat = res1$p
    p.mat[1:5,1:5]
    


    [AppleScript] 纯文本查看 复制代码
    #指定显著性水平,不显著的为空白;
    corrplot(cor, order = "hclust",col = col2(100),method = "color",
    tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2,
    p.mat = res1$p, sig.level = .05,insig = "blank",addgrid.col="white")
    



    [AppleScript] 纯文本查看 复制代码
    #显示P值;
    corrplot(cor, order = "hclust",col = col2(100),method = "color",
    tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2,
    p.mat = res1$p, sig.level = -1,pch.cex=1,
    insig = "p-value", pch.col = "white")
    
    #显示相关系数;
    #par(lty=2)可指定线的粗细,遗憾的是会作用到图例的线条;
    
    corrplot(cor, order = "hclust",col = col2(100),method = "color",
    cl.length=5,addgrid.col="white",cl.pos = "r",
    addCoef.col="black",number.cex=0.6,number.digits=1,number.font=1,
    tl.col="black",tl.cex = 0.8,cl.ratio = 0.2)
    


    [AppleScript] 纯文本查看 复制代码
    #缺失值的展示,默认是用“?”,也可以自定义;
    #corrplot(cor, na.label = "NA")


    7.添加显著性星标标记

    [AppleScript] 纯文本查看 复制代码
    #insig为"p-value",不显著的格子显示p值;
    #insig为"label_sig",可用于显示不同显著水平的星标;
    #insig为"pch" (default),不显著的格子显示pch值对应图形;
    
    corrplot(cor, order = "hclust",col = col2(100),method = "color",
    tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2,
    p.mat = res1$p, sig.level = c(.001, .01, .05),outline="white",
    insig = "label_sig",pch.cex = 1.2, pch.col = "white")
    



    8.推荐另一个R包ggcor

    上文的corrplot包是基于R基础绘图函数创建的,那么又没有基于ggplot2的呢?有,比如相对应的ggcorrplot包,不过我这里推荐另一个R包:ggcor 。

    [AppleScript] 纯文本查看 复制代码
    #安装方法:
    # install.packages("devtools")
    devtools::install_github("houyunhuang/ggcor")
    #载入R包;
    library(ggcor)
    library(ggplot2)

    [AppleScript] 纯文本查看 复制代码
    #直接快速绘制整个相关性热图;
    quickcor(mtcars, cluster = TRUE,cor.test = TRUE) +
    geom_colour() +
    geom_mark(size=3,color="white",fontface=1)+
    scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
    geom_panel_grid(colour = "white",size = 1)



    [AppleScript] 纯文本查看 复制代码
    #直接绘制上三角热图;
    quickcor(mtcars, cluster = TRUE,type = "upper",cor.test = TRUE) +
    geom_colour(data = get_data(type = "upper")) +
    geom_mark(data = get_data( type = "upper"),size=3,color="white",fontface=1)+
    scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
    geom_panel_grid(colour = "white",size = 0.6)
    


    [AppleScript] 纯文本查看 复制代码
    #直接绘制上三角“方块”热图;
    quickcor(mtcars, cluster = TRUE,type = "upper",cor.test = TRUE) +
    geom_square(data = get_data(type = "upper")) +
    scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
    geom_panel_grid(size = 0.6)
    


    [AppleScript] 纯文本查看 复制代码
    #直接绘制上三角“气泡”热图;
    quickcor(mtcars, cluster = TRUE,type = "upper",cor.test = TRUE) +
    geom_circle2(data = get_data(type = "upper"),colour="white") +
    scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
    geom_panel_grid(colour = "white",size = 0.6)
    



    关于ggcor的教程还可参考后面《绘制一篇Science文章的组合图》一文,更详细的教程见厚缊大神的博客:http://houyun.xyz/


    拓展阅读

    方差(Variance):每个样本值与全体样本值的平均数之差的平方值的平均数,用于衡量一个变量的数据和期望值离散程度,公式如下,其中,σ2 即D(X)、Var(V),为总体方差,X为变量,μ为总体均值,N为总体个数。





    协方差(Covariance):用于衡量两个变量的总体误差。而方差可看作是协方差的一种特例,即当两个变量是相同的时候。公式如下:



    可以看出,若X,Y正相关(变换趋势相同),则协方差值为正;变化趋势相反则协方差值为负。

    相关系数(Pearson):
    相关系数是研究变量之间线性相关程度的指标,而相关关系是一种非确定性的关系,数据具有相关性不能推出有因果关系。相关系数的计算公式如下:



    其中,公式的分子为X,Y两个变量的协方差,Var(X)和Var(Y)分别是这两个变量的方差。当X,Y的相关程度最高时,即X,Y趋近相同时,很容易发现分子和分母相同,即r=1。

    好啦,本次就分享到这里啦,不知对你有没有启发呢?




    本文作者:基迪奥-莫北

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    新的一天加油!
    回复

    使用道具 举报

  • TA的每日心情

    2016.6.6 09:48
  • 签到天数: 2 天

    连续签到: 1 天

    [LV.1]初来乍到

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    23
    积分
    104
    注册时间
    2016.6.3
    在线时间
    14 小时

    发表于 2020.5.29 11:52:30 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情
    yes!
    7 天前
  • 签到天数: 6 天

    连续签到: 1 天

    [LV.2]偶尔看看I

    钵水母

    Rank: 3Rank: 3

    主题
    1
    奥币
    229
    积分
    58
    注册时间
    2019.7.22
    在线时间
    4 小时

    发表于 2020.5.29 19:44:20 | 显示全部楼层
    可以的,很不错
    新的一天加油!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    1 小时前
  • 签到天数: 378 天

    连续签到: 24 天

    [LV.9]以坛为家II

    帝王蝶

    Rank: 4

    主题
    3
    奥币
    1389
    积分
    421
    注册时间
    2019.3.2
    在线时间
    149 小时

    发表于 2020.5.30 09:06:01 | 显示全部楼层
    教程真棒
    签到~
    回复

    使用道具 举报

    该用户从未签到

    草履虫

    Rank: 2

    主题
    0
    奥币
    43
    积分
    3
    注册时间
    2020.5.30
    在线时间
    1 小时

    发表于 2020.5.30 13:35:58 | 显示全部楼层
    学习了,很有用
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    吃饭
    2020.5.30 14:42
  • 签到天数: 1 天

    连续签到: 1 天

    [LV.1]初来乍到

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    18
    积分
    30
    注册时间
    2019.4.17
    在线时间
    2 小时

    发表于 2020.5.30 14:43:24 | 显示全部楼层
    牛逼66666.
    开心
    回复

    使用道具 举报

  • TA的每日心情
    yes!
    4 天前
  • 签到天数: 22 天

    连续签到: 1 天

    [LV.4]偶尔看看III

    钵水母

    Rank: 3Rank: 3

    主题
    5
    奥币
    107
    积分
    53
    注册时间
    2020.4.11
    在线时间
    8 小时

    发表于 2020.5.30 18:13:51 | 显示全部楼层
    厉害!
    加油
    回复

    使用道具 举报

  • TA的每日心情
    好棒
    3 小时前
  • 签到天数: 1066 天

    连续签到: 23 天

    [LV.10]以坛为家III

    迅猛龙

    Rank: 8Rank: 8

    主题
    1
    奥币
    107
    积分
    1113
    注册时间
    2016.4.8
    在线时间
    709 小时

    发表于 2020.6.27 07:14:36 | 显示全部楼层
    bucuo
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表