查看: 718|回复: 6

[软件使用] GMAP的安装和使用心得

[复制链接]

钵水母

Rank: 3Rank: 3

主题
3
注册时间
2016.1.11
在线时间
36 小时

发表于 2021.2.24 01:18:41 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
网络搜索的步骤:
第一步:构建GMAP/GSNAP索引数据库
GMAP/GSNAP对FASTA文件中每个记录下的序列的长度有一定限制, 每一条不能超过4G, 能应付的了大部分物种了。

构建索引分为两种情况考虑,第一种是一个fasta文件包含所有的序列

~/opt/biosoft/gmap/bin/gmap_build -d reference reference.fa
第二种则是每个染色体的序列都单独存放在一个文件夹里,比如说你下载人类参考基因组序列解压后发现有N多个fasta文件, 然后你就想用其中几条染色体构建索引

~/opt/biosoft/gmap/bin/gmap_build -d reference Chr1.fa Chr2.fa Chr3.fa ...
注: 这里的-d表示数据K库的名字,默认把索引存放在gmap安装路径下的share里,可以用-D更改.此外还有一个参数-k用于设置K-mer的长度, 默认是15, 理论上只有大于4GB基因组才会有两条一摸一样的15bp序列(当然是完全随机情况下)。

第二步:正式比对
建立完索引之后就可以将已有的CDS或者EST序列和参考基因组序列进行比较。

~/opt/biosoft/gmap/bin/gmap -t 10 -d reference -f gff3_gene cds.fa > cds_gene.gff3
其中-t设置线程数, -d表示参考基因组数据库的名字, 都是常规参数。我比较感兴趣的参数是如何将序列输出成GFF格式. GMAP允许多种格式的输出,比如说-S只看联配的总体情况,而-A会显示每个比对上序列的联配情况, 还可以输出蛋白序列(-P)或者是genomic序列(-E). 但是做结构注释要的gff文件,参数就是-f gff3_gene, -f gff3_match_cdna, -f gff3_match_est。

运行 实例(以悲剧结束)
$ cd e:/programfiles/gmap-2021-02-12 #cd到解压后的文件夹#
$ ./configure
$    make
$    make check   (optional)
$    make install
$ cd e:/AS #cd到基因组数据目录#
$    gmap_build -d xinjiangdaye_db  xinjiangdaye_genome.fa #这里的xinjiangdaye_db是即将建立的索引或者数据库,xinjiangdaye_genome.fa是基因组的fasta文件#
#由于8G内存几乎被占满,运行缓慢,终止了运行,需要内存配置更高的电脑,或者拆分文件?#


能不忙吗!哎!!
回复

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
0
注册时间
2020.11.21
在线时间
22 小时

发表于 2021.2.24 10:47:11 | 显示全部楼层
坚持就是胜利!
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
1
注册时间
2019.11.26
在线时间
2 小时

发表于 2021.2.24 20:05:36 | 显示全部楼层
感恩!!!
回复

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
3
注册时间
2017.9.8
在线时间
17 小时

发表于 2021.2.25 09:09:07 | 显示全部楼层
加油,加油!
回复

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
3
注册时间
2017.9.8
在线时间
17 小时

发表于 2021.2.26 09:06:42 | 显示全部楼层
加油,加油!
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2018.11.22
在线时间
8 小时

发表于 7 天前 | 显示全部楼层
来学习一下!
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2018.11.22
在线时间
8 小时

发表于 6 天前 | 显示全部楼层
今天也是元气满满的一天啊!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表