查看: 1737|回复: 6

[ChIP-seq] 表观组学中的motif分析到底在研究什么?

[复制链接]

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
461
注册时间
2020.6.16
在线时间
304 小时

发表于 2021.11.19 09:52:17 | 显示全部楼层 |阅读模式
# 一、无处不在的motif #

在各类表观组学文章中,motif分析总是占据着关键版面,例如m6A文章中经典的RRACH类型RNA甲基化motif、ATAC文章中各类转录因子结合位点预测也少不了motif结果的展示,甚至可以利用motif分析预测蛋白功能。用途如此广泛的分析究竟该如何去理解与学习其基础概念,手上有数据该如何完成此类分析,分析结果又如何解读,今天我们就带大家来好好认识一下这位期刊文章中的常客—motif分析。

图1 m6A研究文章中常见的motif结果

motif(模体)这个概念很早就被提出,而首次系统化描述这个概念内容的文章是在2002年,发表于Science期刊上。在这篇文章中,motif被定义为:在复杂网络中某种连接模式出现频率显著高于随机网络的现象。


motif我们可以简单理解为:在复杂网络中出现的局部规律,这种规律现象无处不在。例如对于X-Y这个motif,在生态网络中,可以是大鱼X吃掉小鱼Y,也可以是神经网络中神经元X激活神经元Y;甚至是我们日常生活听到的音乐中反复出现的和弦走向、服装上的重复花纹等都可以用某种motif进行描述。motif概念的引入,使得网络研究(基因网络、生态网络等)不局限于某些固定节点或网络整体,我们可以经由motif研究复杂网络的微观结构,关注某些元素之间的关联特性。

# 二、表观组学中的motif分析 #

回归到表观组学中,无论是转录因子结合或是DNA、RNA甲基化修饰,他们都存在一定碱基偏好性,即结合/修饰位点并不是随机现象,而是出现在某些特定的碱基组合中,利用motif分析可以挖掘其修饰/结合偏好,进而锁定相关基因,对后续讨论、实验具有指导作用。

    TF:Transcription Factor,转录因子
    TFBS:Transcription Factor Binding Site 转录因子结合位点

# 三、常见motif算法 #

当前常用的motif计算方法可分为两大类:字符搜索算法、概率模型算法;其中概率模型算法又分为期望最大算法以及吉布斯取样算法。


1)字符搜索算法:其核心思想是将一个单词组合(如:ATTCG)出现次数与其期望次数进行比较分析,将相似的单词组合成一个motif。这种算法适用于短motif搜索,目前这类算法使用较少;
2)吉布斯取样算法 (Gibbs sampling) :这类算法的核心思想是进行随机采样,不断更新motif模型以及在序列中出现的位置,当满足设置好的阈值条件就终止迭代,获得最终的motif结果;
3)期望最大算法 (expectation maximization, EM) :EM算法是目前应用最为广泛的motif算法,这类算法对序列集合构建二元有限混合模型,再运用最大似然估计法对模型参数值进行估计。

EM算法的典型软件代表就是MEME软件,这款软件功能强大,还提供了操作简单的在线工具,在表观组学涉及motif分析文章中的出现频率极高。

MEME在线工具地址:   
https://meme-suite.org/meme/tools/meme

图2 MEME软件主页面

# 四、MEME-ChIP #

MEME中有一款整合组件MEME-ChIP,它整合了motif搜索、富集、浏览以及比较工具组件,输入一批数据可完成一系列motif分析操作,这款组件广泛用于ATAC-seq、DAP-seq、ChIP-seq等测序数据motif挖掘中。

MEME-ChIP主要包含组件:

1)MEME\DREME\STREME:motif搜索工具,MEME主要用于较长motif(8-15bp)搜索;DREME则用于预测短motif(3-8bp),目前已不再整合入MEME-ChIP中;STREME主要用于输入IP序列以及Input序列时的motif比较搜索。

图3 不同长度motif结果图
*注:图形横轴表示碱基序号,纵轴表示校正后的得分,碱基高度越高表示motif该位置出现这种碱基可能性越高

2)CentriMo/SpaMo:
motif富集工具,CentriMo用于发现Motif在输入序列上的富集情况,要求输入序列等长;SpaMo分析则用于计算距离主要motif周围的次要motif信息(较少使用)。

图4 motif在序列中心富集概率曲线

3)Tomtom:motif注释工具,主要用于预测的motif结果与jaspar等转录因子数据库中记录的motif对比、注释。

图5 motif注释结果

4)FIMO:查找获得的motif具体位置,可构建起motif-peak-相关基因的关系,进而分析转录因子对相关基因的表达调控作用。

图6 基迪奥DAP流程FIMO结果表格

# 五、MEME-ChIP实操、结果解读 #

#1 上传数据

地址:
https://meme-suite.org/meme/tools/meme-chip

注意:MEME-ChIP需要输入等长的序列,官方推荐500bp长度fa格式文件进行上传分析。


#2 参数选择

1)基础参数信息


2)高阶参数信息调整


#3 任务结果查看下载

200条500bp长度的DNA序列上传,默认参数下, 5分钟左右即可获得motif结果。任务结果提供了网页版本可直接查看,也提供了打包下载功能。


#4 结果总览

打开网页版结果,整体展示任务的motif结果信息,点击对应链接可以跳转查看。


#5 MEME结果

点击MEME结果部分,给出了序列、显著性E值等一系列motif搜索相关信息,还可以查看motif在各染色体具体位置。


#6 TOMTOM结果

提供JASPAR等数据库motif比对结果,可根据这部分结果分析相关转录因子在序列结合情况。


#7 Centrimo结果

对已知/搜索获得motif出现在输入序列中心位置概率进行分析,0位置峰越高,说明该motif出现在序列中心位置概率越大,越有可能是后续研究的重点。


#8 FIMO结果

FIMO组件展示了MEME组件搜索到的motif具体匹配到的序列信息(所处染色体、起始终止位置、显著性等),可用于构建motif-peak-相关基因的位置关系,从而获得motif潜在调控的相关基因。


# 小结 #

motif分析作为表观组学高分文章的必备分析条目,掌握它并用好它能为后续的关键基因筛选、调控机制挖掘提供不小的参考与指导。


本文作者:基迪奥-阿拉雷

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
新的一天加油!
回复

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
0
注册时间
2020.11.21
在线时间
76 小时

发表于 2021.11.19 22:00:06 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2019.5.11
在线时间
2 小时

发表于 2021.11.20 19:09:37 | 显示全部楼层
棒呆
好看新 好第几考场
回复

使用道具 举报

功夫熊猫

Rank: 10Rank: 10Rank: 10

主题
3
注册时间
2017.9.8
在线时间
79 小时

发表于 2021.11.20 22:27:19 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

帝王蝶

Rank: 4

主题
0
注册时间
2019.3.26
在线时间
7 小时

发表于 2021.11.21 18:17:17 | 显示全部楼层
6666666666666
新的一天加油!
回复 支持 反对

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
0
注册时间
2020.11.21
在线时间
76 小时

发表于 2021.11.21 19:19:42 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
31
注册时间
2016.1.8
在线时间
556 小时

发表于 2021.11.22 11:05:37 | 显示全部楼层
好文必须赞
新的一天加油!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表