查看: 15667|回复: 13

[软件使用] Uniprot、pfam数据库的使用方法

  [复制链接]

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
201
注册时间
2017.7.3
在线时间
532 小时

活跃会员荣誉管理


发表于 2018.9.25 10:27:50 | 显示全部楼层 |阅读模式
                                                                                                   
首先给大家看一张图,准确来说是半张(只截取了一部分),是下图这样子的:


(BMCgenomics, 2018) 如果要绘制这样的图,就需要构建进化树以及进行结构域分析。如何快速实现这样组合图的绘制?其实用EvolView的话很简单,我的下一篇微信推文将重点介绍。在此之前,先向大家介绍UniProt和Pfam这两个常用数据库的用法,为下一篇文章做些铺垫。

UniProt

UniProt(Universal Protein Resource)是最全面的蛋白质序列和注释信息数据库,包括UniProtKB,UniRef 和 UniParc 三个部分,整合了Swiss-Prot、 TrEMBL 和 PIR-PSD 三大数据库的数据。
网址:https://www.uniprot.org/



其中,UniProtKB为UniProt数据库的核心,主要由两部分组成:UniProtKB/Swiss-Prot 和 UniProtKB/TrEMBL ,下面我们简单看下怎么使用UniProtKB。
进入Uniplot数据库的首页,在搜索栏中直接输入关键词进行搜索,可以是蛋白名称、ID号、基因名等等,用法类似于NCBI。比如这里输入“aquaporin human”,查询结果如下:



在结果页面的左侧,可设置条件进行进一步的筛选,Entry为蛋白的ID,点击Entry ID可查看详细的注释信息,另外这里的Entry name非常重要,可用作进化树“树叶”的标签,勾选所需的序列后可接着做Blast(勾选1条序列)或Align(选择两条以上的序列),也可直接点Download,下载选中的序列。
如果还需要查找其他的序列,可点Add to basket按钮,先将菜...呸...将序列放在“篮子”里,然后接着搜索其他的序列。序列收集完后,点右上角的Basket按钮,即可批量下载这些序列,我这里保存为fasta(canonical)格式,可直接用于进化树的构建。



进化树序列的准备工作到此就初步完成了,下面了解下如何预测蛋白的结构域(domain)。

Pfam

Pfam是一个蛋白质家族的数据库,提供完整、准确的蛋白质家族和结构域的分类信息。Pfam使用隐马尔科夫算法(hidden Markov models)而不是经典的Blast进行同源匹配,主要用于蛋白结构域的预测,这对蛋白的功能研究非常有帮助。 少罗嗦,我们看下怎么用它做在线分析。通过下面网址直接进入Pfam序列批量预测模式。

网址:http://pfam.xfam.org/search

然后在Batch sequence search 窗口选择包含多个序列的fasta文件,可以是上文提到的从Uniportd的”篮子”批量导出的蛋白序列文件,填写邮箱,然后点Submit through hmmer按钮提交任务。



这里的fasta文件最多可包含5000条序列,一般的个性化分析足以胜任。之后,等着收邮件就好,任务耗时的多少与序列的多少有关,一般几个小时就会有结果,它会估计任务排队的时间,如下图。
  


收到的邮件是下图这样子的,会直接给出所有序列的结构域信息,可复制粘贴到记事本或Excel中。



你也可以点邮件中的链接,接着点show,如下图,在网页中查看每条序列的详细预测结果。



比如这里查看第3条序列的分析结果,如下,预测到3个domain,其中有一个功能未知的domain。结果中的Family容易理解,至于这里的Clan (/klæn/,宗族,来源于苏格兰盖尔语),从字面意思来模糊理解:宗族还是比家族要“大”。因此,BTB和BACK属于同一个Clan,这里的Clan可视作superfamily。

Tips:
Motif:A short unit found outside globulardomains.
Domain:A structural unit.
E-values: expectation values,值要小于1,E-values越小越好,如果等于1预测的结果和随机产生的结果概率一样。

此外还给出每个domain的位置信息和E-value值。类似与NCBI的Blast,E-value值越小越可信。



最后,点Download,进入下载页面,可以下载当前序列的分析结构,格式选Tab Delimited 的文本文件即可,如下图。



到此,回到本文开始如何画进化树和结构域的组合图的问题,那么,需要我们自己花时间准备结构域文件吗?我在下一篇微信公众号文章会详细介绍这种图的绘制方法,不过我这里先告诉大家:不需要! 今天的内容就到这里啦~

参考文献:
Xie T, Chen C, Li C, et al. Genome wide investigation of WRKY gene family in pineapple: evolution and expression profiles during development and stress[J]. BMC Genomics, 2018, 19(1):490.   


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
新的一天加油!
回复

使用道具 举报

帝王蝶

Rank: 4

主题
4
注册时间
2016.9.14
在线时间
92 小时

发表于 2018.9.25 14:45:04 | 显示全部楼层
非常有用的方法。赞一个
回复 支持 反对

使用道具 举报

版主

Rank: 10Rank: 10Rank: 10

主题
62
注册时间
2017.9.21
在线时间
310 小时

突出贡献优秀版主论坛元老


发表于 2018.9.25 19:25:30 | 显示全部楼层
楼主V5
New beginning~
回复

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
201
注册时间
2017.7.3
在线时间
532 小时

活跃会员荣誉管理


 楼主| 发表于 2018.9.26 09:14:06 | 显示全部楼层
gd624618874 发表于 2018.9.25 14:45
非常有用的方法。赞一个

新的一天加油!
回复 支持 反对

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
201
注册时间
2017.7.3
在线时间
532 小时

活跃会员荣誉管理


 楼主| 发表于 2018.9.26 09:14:17 | 显示全部楼层
新的一天加油!
回复 支持 反对

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
0
注册时间
2016.5.16
在线时间
238 小时

发表于 2018.9.26 20:43:56 | 显示全部楼层
感谢分享
签到中
回复

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
201
注册时间
2017.7.3
在线时间
532 小时

活跃会员荣誉管理


 楼主| 发表于 2018.9.27 09:25:49 | 显示全部楼层
新的一天加油!
回复 支持 反对

使用道具 举报

草履虫

Rank: 2

主题
0
注册时间
2018.11.5
在线时间
4 小时

发表于 2018.12.23 14:22:31 | 显示全部楼层
有人知道楼主的微信公众号嘛?
回复 支持 反对

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
201
注册时间
2017.7.3
在线时间
532 小时

活跃会员荣誉管理


 楼主| 发表于 2018.12.24 09:33:55 | 显示全部楼层
各自为王 发表于 2018.12.23 14:22
有人知道楼主的微信公众号嘛?

搜索 基迪奥生物
新的一天加油!
回复 支持 反对

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
11
注册时间
2020.3.29
在线时间
26 小时

灌水之王


发表于 2020.5.4 09:30:56 | 显示全部楼层
很实用,谢谢分享
回复 支持 反对

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
1
注册时间
2016.4.8
在线时间
805 小时

发表于 2020.6.27 07:38:57 | 显示全部楼层
jiay ou
回复

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
1
注册时间
2016.4.8
在线时间
805 小时

发表于 2020.6.27 07:58:38 | 显示全部楼层
下一篇在哪里,,有用,
回复 支持 反对

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
1
注册时间
2016.4.8
在线时间
805 小时

发表于 2020.6.30 09:59:22 | 显示全部楼层
我想问一下那篇微信公众号文章在哪里?一直找不到啊,,求分享求告知求分享
回复 支持 反对

使用道具 举报

草履虫

Rank: 2

主题
0
注册时间
2020.6.30
在线时间
1 小时

发表于 2020.7.3 13:41:16 | 显示全部楼层
非常的赞
项目要完工了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表