查看: 7032|回复: 8

Pfam蛋白家族数据库的使用方法

  [复制链接]

中华鲟

Rank: 5Rank: 5

主题
6
注册时间
2016.5.22
在线时间
101 小时

发表于 2016.9.23 22:09:54 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 hld8124 于 2016.9.23 22:17 编辑

Pfam(http://pfam.sanger.ac.uk/)是一个被广泛使用的蛋白家族数据库,在最新的版本26.0中包含超过13000个手工确定的蛋白家族,Pfam可以通过http://pfam.sanger.ac.uk/使用,他有两个数据库,高质量,手工确定的Pfam-A,自动注释的Pfam-B数据库。后面的数据产生是根据ADDA算法。是对A的补充。
下载:
PfamScan.pl工具(ftp://ftp.sanger.ac.uk/pub/databases/Pfam/Tools
应的数据库(ftp://ftp.sanger.ac.uk/pub/databases/Pfam/current_release/),按照说明说我下载的是
        Pfam-A.hmm
        Pfam-A.hmm.dat  
        Pfam-B.hmm      
        Pfam-B.hmm.dat  
        active_site.dat
HMMER3 (http://hmmer.janelia.org/software

前准备工作:
Perl 和bioperl的安装 我的已经安装过了,据说可以通过一下方法安装
      sudo apt-get install perl ( replace perl with bioperl for installation of bioperl)

Moose的安装
sudo -i ( the system will ask for password type it in and youll find the user name change to root marked in red. its ready to go now) (因为之前没有权限,没用这一步,所以安装不来,导致后面的报错)
then use CPAN to install Moose use this:
CPAN Moose ( this will take a while)

HMMER3的安装
HMMER用来寻找同源序列数据库,做序列比对,它可用一条序列来寻找数据库,功能非常强大。
tar zxf hmmer-3.1b1.tar.gz
cd hmmer-3.1b1
./configure  
make  
make check
make install
cd easel;make install
修改环境变量:export PATH=/sam/hmmer/binaries:$PATH(这个是针对bash而言的)
这个时候可以通过在终端输入:hmmscan -h 来检验是否安装成功

这就可以了嘛,不用怎么安装,修改环境变量即可。
export PERL5LIB=/sam/hmmmer/pfamscan:$PATH  (含有pfam_scan.pl)
(the path to your pfam_scan.pl should be listed if it is successfully added)可以通过如下命令来查看环境变量是否修改成功
perl -V
为什么用的是PERL5LIB而不是PATH呢
What we’re doing in a nutshell is telling PERL to push values on to the @INC array before loading any modules. You can do this on the command line, in your PERL code or with the environment variable PERL5LIB.
PERL5LIB can contain more than one value. Just set it in you .bashrc file or wherever you see fit. This method works in bash:
export PERL5LIB=/first/path/to/libs"${PERL5LIB:+:$PERL5LIB}"


通过hmmerspress来把下载的数据建库:
hmmpress Pfam-A.hmm
hmmpress Pfam-B.hmm

使用说明:
pfam_scan.pl -fasta -dir
Additonal options:
  -h              : show this help
  -o       : output file, otherwise send to STDOUT
  -clan_overlap   : show overlapping hits within clan member families (applies to Pfam-A families only)
  -align          : show the HMM-sequence alignment for each match
  -e_seq      : specify hmmscan evalue sequence cutoff for Pfam-A searches (default Pfam defined)
  -e_dom      : specify hmmscan evalue domain cutoff for Pfam-A searches (default Pfam defined)
  -b_seq      : specify hmmscan bit score sequence cutoff for Pfam-A searches (default Pfam defined)
  -b_dom      : specify hmmscan bit score domain cutoff for Pfam-A searches (default Pfam defined)
  -pfamB          : search against Pfam-B HMMs (uses E-value sequence and domain cutoff 0.001),
                    in addition to searching Pfam-A HMMs
  -only_pfamB     : search against Pfam-B HMMs only (uses E-value sequence and domain cutoff 0.001)
  -as             : predict active site residues for Pfam-A matches
  -json [pretty]  : write results in JSON format. If the optional value "pretty" is given,
                    the JSON output will be formatted using the "pretty" option in the JSON
                    module
For more help, check the perldoc:
  shell% perldoc pfam_scan.pl


例如:
/sam/hmmer/PfamScan/pfam_scan.pl -fasta contig_proteins.fasta -dir /sam/hmmer/PfamScan/lib -pfamB -out contig_pfam.fasta

注释出来的结果中含有.后面跟的数字与不跟数字有什么区别??
pfam-help@ebi.ac.uk
There is no difference for the user.
The extra numerals after the . are for internal auditing and have no meaning
for the results. In effect both are PF00013.24 - that is: version 24 since
first creation of family.




结果的初步解读:
# < seq id> < alignment start> < alignment end> < envelope start> < envelope end> < hmm acc>
< hmm name> < type> < hmm start> < hmm end> < hmm length> < bit score> < E-value> < significance>
< clan>

1_1        111    424    110    425 PF01979.15  Amidohydro_1      Domain     2   332  
333    185.8   1.5e-54   1 CL0034  
1_2         30    130     30    130 PF13600.1   DUF4140           Family     1   104
  104     52.1   6.7e-14   1 No_clan  

这里的PF代表的是pfam-A,PB代表的是pfam-B数据库。
clan表示上一级的分类

利用官网首页"Jump to”功能,检索注释出来的详细的信息:
Pfam A accession, e.g. PF02171
Pfam A identifier, e.g. piwi
Pfam B accession, e.g. PB000001
Pfam B identifier, e.g. Pfam-B_1
UniProt sequence accession, e.g. P00789
UniProt sequence ID, e.g. CANX_CHICK
NCBI "GI" number, e.g. 113594566
NCBI secondary accession, e.g. BAF18440.1
Pfam clan accession, e.g. CL0005
metaseq ID, e.g. JCVI_ORF_1096665732460
metaseq accession, e.g. JCVI_PEP_1096665732461
Pfam clan accession, e.g. CL0005
Pfam clan ID, e.g. Kazal
PDB entry, e.g. 2abl
Proteome species name, e.g. Homo sapiens


之前的邮箱不好使了。
pfamlist-subscribe@sanger.ac.uk




参考资料:文献:The Pfam protein families database
          官网说明说 readme

          shuixia100的博客:http://shuixia100./1/post/2012/04/how-to-install-pfam_scanpl-under-linux-ubuntu.html
           Brain Goo的博客:http://www.popmartian.com/tipsntricks/2011/04/11/how-to-pass-perl-library-paths-from-the-environment/
      
           

ps:  1,pfam团队的邮箱:pfam-help@sanger.ac.uk。有问题就可以问他们
     2,Can't locate Bio/Pfam/Scan/PfamScan.pm in @INC (@INC contains: /etc/perl /usr/local/lib/perl/5.14.2 /usr/local/share/perl/5.14.2 /usr/lib/perl5 /usr/share/perl5 /usr/lib/perl/5.14 /usr/share/perl/5.14 /usr/local/lib/site_perl .) at /sam/hmmer/PfamScan/pfam_scan.pl line 8.
BEGIN failed--compilation aborted at /sam/hmmer/PfamScan/pfam_scan.pl line 8.这个问题折腾了我很久,最后我改了两点,一个就是通过cpan下载Moose,另一个就是修改了pfam_scan.pl的环境变量,就OK了。那就根据我博文中提到的PERL5LIB,我觉得应该是第二个原因。反正问题解决了,who care 呢?

引自  http://blog.sina.com.cn/s/blog_670445240101ke4g.html

评分

参与人数 3奥币 +23 贡献 +6 收起 理由
小瑶 + 8 楼主V5!
基迪奥-周煌凯 + 10 + 4 Good job!
hld8124 + 5 + 2 Nice!

查看全部评分

回复

使用道具 举报

版主

Rank: 10Rank: 10Rank: 10

主题
52
注册时间
2016.1.8
在线时间
274 小时

突出贡献优秀版主论坛元老


发表于 2016.9.24 08:53:40 | 显示全部楼层
棒棒棒,谢谢
回复 支持 反对

使用道具 举报

帝王蝶

Rank: 4

主题
0
注册时间
2016.2.28
在线时间
184 小时

发表于 2016.9.24 10:12:07 | 显示全部楼层
谢谢分享
新的一天加油!
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
1
注册时间
2016.5.21
在线时间
34 小时

发表于 2016.9.25 09:30:42 | 显示全部楼层
谢谢分享
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2016.9.13
在线时间
33 小时

发表于 2016.12.21 15:01:04 | 显示全部楼层
无私分享的人最可爱
回复 支持 反对

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
6
注册时间
2016.5.22
在线时间
101 小时

 楼主| 发表于 2016.12.22 22:43:01 | 显示全部楼层
{:6_311:我是一个搬运工
回复 支持 反对

使用道具 举报

草履虫

Rank: 2

主题
0
注册时间
2016.12.27
在线时间
11 小时

发表于 2016.12.29 12:48:08 | 显示全部楼层
学习了,谢谢分享
回复 支持 反对

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
6
注册时间
2016.5.22
在线时间
101 小时

 楼主| 发表于 2016.12.29 15:10:20 | 显示全部楼层
回复

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
0
注册时间
2017.6.6
在线时间
67 小时

灌水之王


发表于 2020.5.28 10:36:11 | 显示全部楼层
厉害厉害
新的一天加油!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表