查看: 4868|回复: 2

如何鉴定sORFs编码多肽?

[复制链接]

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
392
注册时间
2018.4.19
在线时间
896 小时

推广达人宣传达人


发表于 2019.4.10 09:17:17 | 显示全部楼层 |阅读模式
近年来,sORF编码的多肽(sORF encoded polypeptides, SEPs)的研究热度越来越高,我们上期也介绍了哪些序列上可能会含有能编码功能多肽的sORFs(具体请戳这里)。
有研究目标了,那研究方法呢?事实上,鉴定并验证由sORF编码的多肽并不容易。
举个例子,如果采用计算机密码子预测的方法,从AUG密码子出发,按照三碱基密码子一直到终止密码子(UAA, UAG, UGA)来预测,在拟南芥基因组中一共有606,285个潜在的sORFs(25-250个氨基酸),在拟南芥的基因间区共有570,948个潜在的sORFs(30-100个氨基酸)。
这么多的sORFs,难道都编码功能多肽吗?当然不是,其中绝大部分是假阳性结果。并且,一个基因上有ORF,并不代表其就能编码为蛋白序列。因此,我们还要想办法去证明sORF具有蛋白编码能力,能够翻译为功能蛋白。

鉴定可翻译的sORF主要从生物信息分析和实验方法两方面着手。今天我们首先来介绍一下生物信息分析的方法。 通过生物信息分析,我们可以搜索已知多肽的同源序列,来预测新的多肽;也可以基于一些标准进行新多肽的重头预测,这些标准包括序列组成与保守性、选择压、编码能力、是否有功能结构域或motif等。
2013年发表在《Frontiers in Plant Science》的文章,就利用了生物信息学的方法来预测四种豆科植物的sORF编码的多肽,包括是否有转录表达、是否有已知的蛋白结构域、序列保守性等。
结果在菜豆、苜蓿、大豆、百脉根中分别鉴定出6170, 30521, 10461, 23599个sORFs,其中菜豆中有766个sORFs编码了少于120aa的多肽[1]。 如何利用这些标准进行新多肽的重头预测?比如分析一个sORF是否有蛋白功能结构域,可以将该sORF潜在编码的蛋白序列比对到pfam、SwissProt等蛋白数据库,解析sORF潜在含有的蛋白结构域,推测多肽的潜在功能。
再比如基于序列组成、序列特性的sORF编码能力评估,因为每个物种其编码序列和非编码序列在序列组成特性上是有所差异的,因此可以以已知的编码序列作为参考数据库,来评估一段来自非编码区的序列是否潜在具有编码能力。
常用的有Fickett score和Hexamer score两个指标来评估一段序列是否具有蛋白编码能力[2]。
Fickett score:根据codingRNA 和 noncodingRNA 的碱基位置和密码子使用偏好性,分析其编码的可能性。一般认为分数<=0.74无编码能力;分数>=0.95有编码能力,分数在0.74-0.95之间不确定是否有编码能力。
Hexamer score:对编码序列和非编码序列打断成6mer,会得到 4096(4^6)种情况,根据其在非编码和编码序列中的比例,计算每一个6mer的可能编码的概率。值为正代表具有编码能力,值为负代表没有编码能力。


图1 编码基因与非编码基因的序列编码潜力评价

对于环状RNA,我们还需要预测其是否具有IRES序列(Internal Ribosome Entry Site,内部核糖体进入位点)。因为环状RNA没有5’端的帽子结构,其翻译起始是不依赖于5’帽子结构的,而是通过IRES序列直接从mRNA内部开始翻译。
基迪奥的环状RNA编码能力分析流程利用IRESfinder进行circRNA的IRES预测[3]。IRESfinder是一个用于识别真核细胞内RNA内部核糖体进入位点的python包,可以用于进一步搜索核心IRES区域。预测结果会给出打分最高的一段区域,该区域可以认为是该circRNA的IRES序列。


图2 IRES打分值分布

另外,如果有专门的sORF编码多肽数据库,那对研究sPEP就更有帮助了。因为目前的数据库收录的都是针对mORF编码的蛋白,这些sPEP从一开始就被排除在外。
可喜的是,确实有这样子的sORF编码多肽数据库,比如sORFs.org[4]、RPFdb[5]、ARA-PEPs等。sORFs.org数据库收录了来自人、小鼠和果蝇的由ribo-seq测序得到的4377422条small ORFs,用户可快速查找感兴趣的sORFs。
RPFdb(www.rpfdb.org )数据库收录了来自293份研究的2884个样本的29个不同物种的ribo-seq数据,包含了翻译mRNA的表达量、mRNA不同位置(5’UTR, 3’UTR, CDS)的表达量、以及利用Genome Browser进行翻译mRNA的可视化等。
ARA-PEPs数据库收录了拟南芥13748条由sORF编码的多肽,这些多肽都在转录水平上得到验证。


图3 sORFs.org界面


图4 RPFdb界面

好了,我们了解了如何从生物信息分析的方法去预测sORF编码的多肽,那么预测出来后,利用什么实验方法进行进一步的证明呢?请持续留意我们下期的介绍!

拓展阅读

【科普帖】多肽的种类与生物学功能
sORF编码的功能多肽来自哪里?

参考文献:
[1] Guillén, G., Díaz-Camino, C.,Loyola-Torres, C.A., Aparicio-Fabre, R., et al., Detailed analysis of putative genes encoding small proteins inlegume genomes. Front. Plant Sci. 2013, 4, 208.
[2] Wang L, Park H J, Dasari S, et al. CPAT: Coding-Potential AssessmentTool using an alignment-free logistic regression model[J]. Nucleic acidsresearch, 2013, 41(6): e74-e74.
[3] Zhao J, Wu J, Xu T, et al. IRESfinder:Identifying RNA internal ribosome entry site in eukaryotic cell using framedk-mer features[J]. Journal of genetics and genomics= Yi chuan xue bao, 2018,45(7): 403.
[4] Olexiouk V, et al. sORFs.org: arepository of small ORFs identified by ribosome profiling. Nucleic Acids Res. 2016; 44(D1):D324–9.[5] Xie SQ, et al. RPFdb: a database forgenome wide information of translated mRNA generated from ribosome profiling.Nucleic Acids Res. 2016; 44(D1):D254–8.

本文作者:基迪奥小师妹        

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

帝王蝶

Rank: 4

主题
3
注册时间
2019.3.2
在线时间
167 小时

发表于 2019.4.10 14:43:13 | 显示全部楼层
感谢分享
新的一天加油!
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
2
注册时间
2017.5.24
在线时间
39 小时

发表于 2019.4.26 23:11:14 | 显示全部楼层
6
从是发上次导师擦拭擦拭擦擦上次
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表