查看: 71324|回复: 83

【主题帖】OS-tools 趋势分析图工具使用教程和参数详解

  [复制链接]

钵水母

Rank: 3Rank: 3

主题
1
注册时间
2016.4.9
在线时间
7 小时

发表于 2016.4.19 18:07:14 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
我用网站的趋势分析图做了基因在三个时间段的表达趋势分析,其中默认参数是FDR小于5%且每两个点之间的Foldchange大于2倍。请问参数能不能只设定为 FDR小于5%?不要求每两个点之间的Foldchange大于2倍。
回复

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
49
注册时间
2015.12.5
在线时间
542 小时

活跃会员论坛元老


发表于 2016.4.19 23:10:46 | 显示全部楼层
1. 背景介绍和原理
  我们趋势分析的方法,其实参照一款非常有名软件STEM(Short Time-series Expression Miner,下载地址:http://www.sb.cs.cmu.edu/stem/)。这个软件的主要用途就是针对时间顺序取样的表达量数据进行聚类,分析其表达模式。如果你使用我们的趋势分析工具完成分析,在撰写文章的时候可以直接引用这款STEM软件[1]。
我们都了解RNA-seq的基础分析是差异表达。但当样本的实验时间点大于或等于3的时候,我们可能更关心这些基因在多个时间的变化规律(上下波动的变化),而不仅仅满足于差异表达。STEM软件就是用于解决这个问题:将你输入的基因按照其表达趋势进行分类,结合功能富集分析就能更有效地挖掘数据内部的规律(这个数据处理的过程,可参考我们的荔枝范例教程: http://www.omicshare.com/forum/thread-408-1-12.html

  这个软件的基本原理:
(i)软件先按照预先的设定,模拟出n种最具有代表性的可能趋势(一种趋势就是一种基因表达模式);
(ii)计算每一个基因与预设的这些趋势的相关系数,然后将每一个基因归类到与其最相似的趋势中。
       以上的两个步骤,也是STEM软件的1个特点:先预设趋势,再分配。这样处理的优点就是趋势更加有规律、整齐划一,便于后期解读。而其他大部分不预设趋势的方法(例如K-means聚类),聚类效果受数据的影响很大。在样本的时间点较少的情况下(3~5个时间点),STEM的聚类效果明显优于其他的聚类方法。当然,如果时间点太多的情况下(6个或6个以上),采用STEM去模拟所有可能的趋势,则会导致趋势过于零碎而加大后期数据整理的工作量,这个时候可以考虑使用其他的聚类算法。
2. 软件参数介绍以及设定建议
       STEM软件本身有比较多的参数,但为了用户使用简单明了,我们只保留了一些核心的参数,其他对结果影响不大的参数只使用默认值。
(1)趋势的数量和归类原则
    就是你预先设定的趋势的数量。建议设定为20个,最多不超过50。因为趋势预设过多后,会导致趋势过于零碎而后期难以整理。软件本身会挑选最有代表性趋势(本身是这个软件的核心算法)作为预设趋势,所以你不用担心由于预设的趋势数量不够多,导致某些表达模式的基因无法被涵盖。
     每个基因将会被分配给与其最相似的趋势,但也要求这个基因的表达模式和该趋势的相关系数>0.7(默认值)。

  (2)数据预处理
       预处理有3种参数,分别是:
       a) log2标准化;
    这个我们推荐的设置。就是以第一个时间点为对照,计算所有样本相对第一个时间点的表达量倍数。并对表达量倍数取log2值(log2处理的倍数值)。这样处理后,第一个样本的表达量为0,后续大于0的样本就是表达上调的样本,小于0的样本就是表达下调的样本。
      b) 标准化;
    就是以第一个时间点为对照,计算所有样本相对第一个时间点的表达量的差值(直接使用差值)。这样处理后,第一个时间点的样本表达量依然为0,但后续的时间点样本的数值会波动很大。因为同样是表达差异倍数为2倍的基因,从10上调到20,其差值是10。而从1000上调到2000就是差值1000。而通常趋势分析更关注倍数的变化,更不是绝对值的差异。所以这个参数不推荐。
      c) 不做标准化/加0
    直接使用输入软件的原始值进行趋势分析。因为在某些情况下,你希望直接观察表达量绝对值的变化,而不希望使用变化倍数或差值。或者,你输入软件的是两组平行实验的log2 差异倍数值(A1vsB1,A2vsB2,A3vsB3),这种数据也不应该按照以上第一种和第二种策略预处理。因为趋势分析软件默认第一个时间点的表达量为0(在前两个模式中都是如此)。所以为了保证原有的软件模块可以正常运行,STEM软件在这种模式下,会在第一个样本前加一个表达量为0的虚拟样本(但其实不存在)。
(3)显著趋势的p值
    趋势分析就是将各个基因分配到预设的有代表性的趋势中。如果某类基因与我们的实验处理相关,那它们的表达模式理论上是相似的,会集中在特定的趋势中。那么就会导致这个趋势的基因的数量大于随机分布的期望值。这个原理和GO、KEGG富集分析的原理相似。软件在完成富集分析后,会按照你设定的显著性阈值(例如:adjusted P=5%,使用bonferroni校正)判定显著富集的趋势。显著富集的趋势在最终输出的趋势总图中,将会有颜色标注。而不显著的趋势,则没有颜色。
但注意:有颜色的显著富集的趋势值得我们优先关注,但并不意味着不显著的趋势就没有生物学意义,不值得关注。因为统计显著性本身受很多因素的影响,这里的富集检验只是给大家一个数据挖掘的优先级。
图1 趋势分析结果的总图
(4)筛选趋势的最小变化倍数
    在STEM处理数据前,软件会对数据进行一个过滤,过滤掉那些表达量没有变化的基因。默认的设置就是一个基因表达量的最大值和最小值的差异倍数如果小于2(就是这个参数填写的数值),则被判定为没有变化而被滤去。因为我们推荐的导入STEM分析的基因是差异基因的并集,这些基因的最大/最小值的变化倍数本身已大于2,这种情况下这个参数可以不考虑。
  (5)添加描述信息
    这是备选参数。趋势分析的结果,我们会输出各个趋势的基因列表。如果在这些列表中,加入基因的注释信息,将有利于你的解读。所以,如果你在这个参数中导入基因注释文件,我们将会在输出结果中给每个基因加入注释信息(当然,你也可以在后期使用表格合并工具来实现)。
3.数据准备
源表格文件
源表格文件是样本的表达量数据(RPKM、FPKM或TPM值)。第一行表头为样本ID,第一列是基因ID。注意,如果有实验重复,则以组为单位计算均值,然后作为组均值为输入值。
添加的描述信息

用户可以自己选择描述信息中要包含哪些基因的注释信息。这些信息会被自动添加到趋势分析结果的表格中。

OS-tools对数据格式的要求,可以以下参考主题帖的要求,避免因为格式不对而影响大家的使用:
4. 结果解读
结果的文件包含以下内容:
1
all.xls所有差异基因RPKM统计表
2
All-Profile.xls所有差异基因对应的趋势基因集统计表
3
profile0.png0趋势内的所有基因整体展示图
4
profile1.xls趋势0相关基因的RPKM统计表
5
trend_all_by_gene_number.png按基因数目展示所有趋势
6
trend_all_by_significance.png按趋势-P值展示所有趋势
具体如下:
1) all.xls
包含所有趋势中基因的表达量以及注释(自动将表达量数据和注释文件合并);
2)All-Profile.xls,利用这个文件用户可以很方便查找你关心的基因属于哪个趋势
第1列:gene ID;
第2列:点的序号(无特定意义)
第3列:基因所在的趋势ID(例如,基因属profile 0 ,则这里的趋势ID就是0)
第3~最后:分别为基因在各个点归一化后表达量值以及基因的功能注释;
3.4) 单个趋势的展示图,以及趋势中基因的表达量和注释信息;
5)trend_all_by_gene_number.png
l  图上方为趋势的ID和趋势中的基因数量;
l  带颜色的趋势块:显著富集的趋势,不同的颜色是软件为了将不同的趋势区分开,而设置的,没有特殊意义
l  不带颜色的趋势块:非显著富集的趋势6)trend_all_by_pvalue.png

l  图上方为趋势的ID和趋势中的基因数量
l  带颜色的趋势块:显著富集的趋势,趋势相似的趋势块颜色相同
l  不带颜色的趋势块:非显著富集的趋势


5. 我们对软件做的调整
    因为趋势分析默认模式下是计算所有样本相对第一个样本的表达量的倍数。但如果第一个样本表达量为0,则这些基因因为倍数无法计算而被过滤,导致丢失大量信息。所以,我们对导入文件中表达量为0的基因,自动赋予其一个极小值(0.001),以避免第一个时间点表达量为0的基因被过滤。
6. 软件引用
由于OS-tools目前还没有发表文章(在我们计划中)。如果大家发表的文章中要引用OS-tools,可以采用以下方法引用:  
由于趋势分析用的是STEM软件的内核,所以在引用这个分析时候,建议直接引用STEM软件。写法建议如下:
Gene expression patterm analysis was perform  by Short Time-series Expression Miner software(STEM)[1]  on  the OmicShare tools platform,a free online platform for data analysis (www.omicshare.com/tools).
The parameters were set as follows:
1)Maximum Unit Change in model profiles between time points is 1;
2)Maximum outmput profiles number is XX(similar profiles will be merged);  备注:XX是趋势的数量
3)Minimum ratio of fold change of DEGs is no less than 2.0

参考文献:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
新的一天加油!
回复 支持 4 反对 0

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
14
注册时间
2016.1.4
在线时间
216 小时

发表于 2016.4.19 23:45:51 | 显示全部楼层
你为什么不考虑log2FC了呢?交流一下
回复 支持 反对

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
14
注册时间
2016.1.4
在线时间
216 小时

发表于 2016.4.19 23:46:27 | 显示全部楼层
坐等答案
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2016.4.10
在线时间
8 小时

发表于 2016.4.20 19:37:13 | 显示全部楼层
正在做趋势分析  写的不错
回复 支持 反对

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
14
注册时间
2016.1.4
在线时间
216 小时

发表于 2016.4.20 20:30:49 | 显示全部楼层
理解啦,谢谢老师
回复 支持 反对

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
10
注册时间
2016.4.7
在线时间
219 小时

活跃会员突出贡献论坛元老


发表于 2016.4.21 06:30:10 来自手机 | 显示全部楼层
学习了,谢谢!
回复 支持 反对

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
9
注册时间
2016.4.12
在线时间
64 小时

发表于 2016.4.27 18:28:44 | 显示全部楼层
明白理论很重要
新的一天加油!
回复 支持 反对

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
10
注册时间
2016.4.7
在线时间
219 小时

活跃会员突出贡献论坛元老


发表于 2016.5.8 20:49:48 来自手机 | 显示全部楼层
很详细,学习了。希望每个工具都能讲解一下。
回复 支持 反对

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
49
注册时间
2015.12.5
在线时间
542 小时

活跃会员论坛元老


发表于 2016.5.8 23:03:20 | 显示全部楼层
zhouqian2617 发表于 2016.5.8 20:49
很详细,学习了。希望每个工具都能讲解一下。

你这么努力灌水,我能告诉你论坛的积分规则:每天灌水加分有上限么
新的一天加油!
回复 支持 反对

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
10
注册时间
2016.4.7
在线时间
219 小时

活跃会员突出贡献论坛元老


发表于 2016.5.9 08:16:29 | 显示全部楼层
基迪奥-周煌凯 发表于 2016.5.8 23:03
你这么努力灌水,我能告诉你论坛的积分规则:每天灌水加分有上限么  ...

如果我说不是为了积分,只是为了论坛首页那句“一起晋级生信大神”老师信吗?
回复 支持 反对

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
49
注册时间
2015.12.5
在线时间
542 小时

活跃会员论坛元老


发表于 2016.5.9 20:52:05 | 显示全部楼层
zhouqian2617 发表于 2016.5.9 08:16
如果我说不是为了积分,只是为了论坛首页那句“一起晋级生信大神”老师信吗?  ...

信信,当然信。
新的一天加油!
回复 支持 反对

使用道具 举报

帝王蝶

Rank: 4

主题
12
注册时间
2016.5.22
在线时间
78 小时

发表于 2016.5.27 13:19:25 | 显示全部楼层
天天知识大爆炸
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2016.3.3
在线时间
15 小时

发表于 2016.5.29 11:15:01 | 显示全部楼层
又一个来灌水的
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2016.5.30
在线时间
14 小时

发表于 2016.5.31 16:32:41 | 显示全部楼层
学习了~~~~
回复

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
13
注册时间
2016.4.28
在线时间
134 小时

发表于 2016.6.29 15:49:18 | 显示全部楼层
有个问题就是 这个趋势分析 跟 聚类分析 和热图 有什么区别吗? 后两者不也是这个作用吗?
回复 支持 反对

使用道具 举报

帝王蝶

Rank: 4

主题
5
注册时间
2016.6.21
在线时间
131 小时

发表于 2016.7.12 08:58:25 | 显示全部楼层
谢谢,老师太牛啦
加油
回复 支持 反对

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
0
注册时间
2016.4.6
在线时间
210 小时

发表于 2016.7.27 09:51:29 | 显示全部楼层
哈哈,看得过瘾进来点个赞,也可以认为是灌水啊,拿到积分先!
回复 支持 反对

使用道具 举报

帝王蝶

Rank: 4

主题
5
注册时间
2016.6.21
在线时间
131 小时

发表于 2016.7.27 10:45:29 | 显示全部楼层
加油
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2016.4.28
在线时间
17 小时

发表于 2016.8.19 13:00:21 | 显示全部楼层
请问可以用log2fold的值吗?
例如我的时间点是0h, 3h, 6h, 9h。
文件格式可以如下吗?
ID   0h    3hvs0h    6hvs0h    9hvs0h  
###其中0h的那一列都是0,而3hvs0h, 6hvs0h, 9hvs0h 均为log2fold值回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表