钵水母
 
- 主题
- 3
- 注册时间
- 2016.1.11
- 在线时间
- 36 小时
|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
网络搜索的步骤:
第一步:构建GMAP/GSNAP索引数据库
GMAP/GSNAP对FASTA文件中每个记录下的序列的长度有一定限制, 每一条不能超过4G, 能应付的了大部分物种了。
构建索引分为两种情况考虑,第一种是一个fasta文件包含所有的序列
~/opt/biosoft/gmap/bin/gmap_build -d reference reference.fa
第二种则是每个染色体的序列都单独存放在一个文件夹里,比如说你下载人类参考基因组序列解压后发现有N多个fasta文件, 然后你就想用其中几条染色体构建索引
~/opt/biosoft/gmap/bin/gmap_build -d reference Chr1.fa Chr2.fa Chr3.fa ...
注: 这里的-d表示数据K库的名字,默认把索引存放在gmap安装路径下的share里,可以用-D更改.此外还有一个参数-k用于设置K-mer的长度, 默认是15, 理论上只有大于4GB基因组才会有两条一摸一样的15bp序列(当然是完全随机情况下)。
第二步:正式比对
建立完索引之后就可以将已有的CDS或者EST序列和参考基因组序列进行比较。
~/opt/biosoft/gmap/bin/gmap -t 10 -d reference -f gff3_gene cds.fa > cds_gene.gff3
其中-t设置线程数, -d表示参考基因组数据库的名字, 都是常规参数。我比较感兴趣的参数是如何将序列输出成GFF格式. GMAP允许多种格式的输出,比如说-S只看联配的总体情况,而-A会显示每个比对上序列的联配情况, 还可以输出蛋白序列(-P)或者是genomic序列(-E). 但是做结构注释要的gff文件,参数就是-f gff3_gene, -f gff3_match_cdna, -f gff3_match_est。
运行 实例(以悲剧结束)
$ cd e:/programfiles/gmap-2021-02-12 #cd到解压后的文件夹#
$ ./configure
$ make
$ make check (optional)
$ make install
$ cd e:/AS #cd到基因组数据目录#
$ gmap_build -d xinjiangdaye_db xinjiangdaye_genome.fa #这里的xinjiangdaye_db是即将建立的索引或者数据库,xinjiangdaye_genome.fa是基因组的fasta文件#
#由于8G内存几乎被占满,运行缓慢,终止了运行,需要内存配置更高的电脑,或者拆分文件?#
|
|