查看: 85|回复: 0

[动植物重测序]  非人类基因组ANNOVAR的使用实例

[复制链接]
  • TA的每日心情

    2017.9.19 15:02
  • 签到天数: 52 天

    连续签到: 1 天

    [LV.5]常住居民I

    钵水母

    Rank: 3Rank: 3

    主题
    7
    奥币
    212
    积分
    110
    注册时间
    2016.5.25
    在线时间
    43 小时

    发表于 2018.10.10 10:24:42 | 显示全部楼层 |阅读模式
    标准流程一艘一大堆就不讲了,主要是自己的GFF文件如何构建ANNOVAR的数据库
    ##首先进行cufflinks把gff文件转为GTF文件
    [root@localhost software]# ./gffread  ../P.striiformis.2.6w.gff -T -o../P.striiformis.2.6w.gtf
    ##然后使用gtfToGenePred 转为genepred格式
    [root@localhost software]# ./gtfToGenePred./P.striiformis.2.6w.gtf ./pst_nr.txt
    file:///C:/Users/JIAGUO~1/AppData/Local/Temp/msohtmlclip1/01/clip_image002.jpg 3 4 5 6 7 8 10 PSTCY32 PSTCY32 PSTCY32 PSTCY32 PSTCY32 PSTCY32 PSTCY32 PSTCY32 PSTCY32 PSTCY32 00001 00002 00003 00004 00005 00006 00007 00008 00009 00010 scaffoldl scaffoldl scaffoldl scaffoldl scaffoldl scaffoldl scaffoldl scaffoldl scaffoldl scaffoldl ./gtfToGenePred 5262 6174 12885 15255 19297 27467 39884 47558 57245 65€65 6142 6552 13402 18100 20408 30662 43008 48398 65020 67136 5262 6174 12885 15255 19297 27467 39884 47558 57245 65065 6142 6552 13402 18100 20408 30662 43008 48398 65020 2 4 4 3 5 4 4 7 6174, 47558 6552 , 65065 , 65471 , 65665 , 66€3€ , 66132 , 6679€ , 67€34 , 65354 , 656€7 , 65957 , 66087 , 66722 , 67007 , 67136 , [root@localhost ./P.striifomis.2.6w.gtf ./pst_nr.txtAC " v:shapes="图片_x0020_1">
    ##在这里要先转一下gtf格式,因为gffToGenePred转的时候莫名其妙报错
    然后我们的格式为9列
    ##后懒得在linux下跑,转到windows下
    CDesktop\annovar>perlretrieve_seq_from_fasta.pl -format ensGene --seqfileP.striiformis.fna.new.fa  pst.txt--outfile P.striiformis.2.6w_refGeneMrna_nl.fa
    ##这里网上所有的教程写的--format 都是refGene,但是一直跑不同,跑官方给的例子也是跑不通的,查了发现官方要求的ref文件是需要16列的,而我们转化来的序列只有9列,后来认真翻看了官方文件后面的例子,发现引用了一个大麦的例子,--format为ensGene,这样终于把转录本给提出来了。
    Desktop\annovar>perltable_annovar.pl all20.171020.vcf humandb/ --remove --vcfinput --outfilepst_all201 --buildver hg19  --protocolrefGene --operation g
    ##这个hg19是我把自己的文件改了名字,想看下是不是因为名字里有符号的原因,并不是例子文件。后续查看了官方的refGene的格式需要16列,但是后面的信息不会用到,所以自己添加了后面的信息就可以跑通了
    For refGene file, each line has 16 tab-delimitedcolumns: $bin, $name, $chr, $dbstrand, $txstart, $txend, $cdsstart, $cdsend,$exoncount, $exonstart, $exonend, $id, $name2, $cdsstartstat, $cdsendstat,$exonframes. The only real important thing is $name (transcript name), $chr(chromosome), $dbstrand (strand of the transcript in reference genome),$txstart, $txend (transcription start and end), $cdsstart, $cdsend (translationstart and end, remember that there are 5/3-UTR in each transcript so the$cdsstart is not the same as $txstart), $exoncount (number of exoms),$exonstart $exonend (comma-delimited exon start and end sites). Remember thatall start sites use zero-based coordinates.
    来自<http://annovar.openbioinformatics.org/en/latest/misc/faq/>
    总结一下,很简单一个程序,但是自己太懒了,懒得去查官方资料,只看了中文版d


    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x

    评分

    参与人数 1奥币 +10 收起 理由
    基迪奥-李泽标 + 10 鼓励分享

    查看全部评分

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表