|
首先给大家看一张图,准确来说是半张(只截取了一部分),是下图这样子的:
(BMCgenomics, 2018) 如果要绘制这样的图,就需要构建进化树以及进行结构域分析。如何快速实现这样组合图的绘制?其实用EvolView的话很简单,我的下一篇微信推文将重点介绍。在此之前,先向大家介绍UniProt和Pfam这两个常用数据库的用法,为下一篇文章做些铺垫。
UniProt
UniProt(Universal Protein Resource)是最全面的蛋白质序列和注释信息数据库,包括UniProtKB,UniRef 和 UniParc 三个部分,整合了Swiss-Prot、 TrEMBL 和 PIR-PSD 三大数据库的数据。
网址:https://www.uniprot.org/
其中,UniProtKB为UniProt数据库的核心,主要由两部分组成:UniProtKB/Swiss-Prot 和 UniProtKB/TrEMBL ,下面我们简单看下怎么使用UniProtKB。
进入Uniplot数据库的首页,在搜索栏中直接输入关键词进行搜索,可以是蛋白名称、ID号、基因名等等,用法类似于NCBI。比如这里输入“aquaporin human”,查询结果如下:
在结果页面的左侧,可设置条件进行进一步的筛选,Entry为蛋白的ID,点击Entry ID可查看详细的注释信息,另外这里的Entry name非常重要,可用作进化树“树叶”的标签,勾选所需的序列后可接着做Blast(勾选1条序列)或Align(选择两条以上的序列),也可直接点Download,下载选中的序列。
如果还需要查找其他的序列,可点Add to basket按钮,先将菜...呸...将序列放在“篮子”里,然后接着搜索其他的序列。序列收集完后,点右上角的Basket按钮,即可批量下载这些序列,我这里保存为fasta(canonical)格式,可直接用于进化树的构建。
进化树序列的准备工作到此就初步完成了,下面了解下如何预测蛋白的结构域(domain)。
Pfam
Pfam是一个蛋白质家族的数据库,提供完整、准确的蛋白质家族和结构域的分类信息。Pfam使用隐马尔科夫算法(hidden Markov models)而不是经典的Blast进行同源匹配,主要用于蛋白结构域的预测,这对蛋白的功能研究非常有帮助。 少罗嗦,我们看下怎么用它做在线分析。通过下面网址直接进入Pfam序列批量预测模式。
网址:http://pfam.xfam.org/search
然后在Batch sequence search 窗口选择包含多个序列的fasta文件,可以是上文提到的从Uniportd的”篮子”批量导出的蛋白序列文件,填写邮箱,然后点Submit through hmmer按钮提交任务。
这里的fasta文件最多可包含5000条序列,一般的个性化分析足以胜任。之后,等着收邮件就好,任务耗时的多少与序列的多少有关,一般几个小时就会有结果,它会估计任务排队的时间,如下图。
收到的邮件是下图这样子的,会直接给出所有序列的结构域信息,可复制粘贴到记事本或Excel中。
你也可以点邮件中的链接,接着点show,如下图,在网页中查看每条序列的详细预测结果。
比如这里查看第3条序列的分析结果,如下,预测到3个domain,其中有一个功能未知的domain。结果中的Family容易理解,至于这里的Clan (/klæn/,宗族,来源于苏格兰盖尔语),从字面意思来模糊理解:宗族还是比家族要“大”。因此,BTB和BACK属于同一个Clan,这里的Clan可视作superfamily。
Tips:
Motif:A short unit found outside globulardomains.
Domain:A structural unit.
E-values: expectation values,值要小于1,E-values越小越好,如果等于1预测的结果和随机产生的结果概率一样。
此外还给出每个domain的位置信息和E-value值。类似与NCBI的Blast,E-value值越小越可信。
最后,点Download,进入下载页面,可以下载当前序列的分析结构,格式选Tab Delimited 的文本文件即可,如下图。
到此,回到本文开始如何画进化树和结构域的组合图的问题,那么,需要我们自己花时间准备结构域文件吗?我在下一篇微信公众号文章会详细介绍这种图的绘制方法,不过我这里先告诉大家:不需要! 今天的内容就到这里啦~
参考文献:
Xie T, Chen C, Li C, et al. Genome wide investigation of WRKY gene family in pineapple: evolution and expression profiles during development and stress[J]. BMC Genomics, 2018, 19(1):490.
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|