查看: 9237|回复: 32

[软件使用] 转录组分析中已知unigene号对序列提取的方法

  [复制链接]

版主

Rank: 10Rank: 10Rank: 10

主题
10
注册时间
2016.1.14
在线时间
409 小时

突出贡献论坛元老


发表于 2016.4.8 09:42:38 | 显示全部楼层 |阅读模式
根据转录组注释信息,找到转录组200多个关注的unigene,怎么把相关序列提取出来。
另外,根据你们公司帮我们做的COG分类,我们对Lipid transport and metabolism 这个节点的基因比较关注,但给的Excl表里面是图片这样的,有960个unigene在这一分类,后面提供了ID号:Unigene0020898、Unigene0020907............我怎么根据这个ID号从fasta文件中把序列筛选出来。



主要的问题是知道Unigene编号,根据这个编号把fasta文件里面的相关序列提取出来,现在都是一条一条的去找,有没有什么软件可用,谢谢。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

帝王蝶

Rank: 4

主题
3
注册时间
2016.4.5
在线时间
46 小时

发表于 2016.4.12 19:01:41 | 显示全部楼层
我有一个朋友写的JAVA小工具,可以很方便的做序列提取,不用自己写perl,在这里分享给楼主吧,希望楼主用的好可以给他鼓励。界面简洁,一看就会的。。。不过你的电脑里要装有Java程序哦~
如果有不明白再问我哦~



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

点评

hld8124同学 ,淘宝中毒太深啊。  发表于 2016.4.13 18:27
多谢 很好用哎 简洁明了  发表于 2016.4.13 10:18
笔误,很好的同学,运行很流程,很方便  发表于 2016.4.12 20:35
很好的卖家,已经试过,很好用  发表于 2016.4.12 20:34

评分

参与人数 2奥币 +35 贡献 +15 收起 理由
小瑶 + 10 + 5 鼓励分享!
基迪奥-周煌凯 + 25 + 10 很实用的工具,感谢分享。我只会perl。.

查看全部评分

回复 支持 2 反对 0

使用道具 举报

版主

Rank: 10Rank: 10Rank: 10

主题
15
注册时间
2016.4.20
在线时间
457 小时

突出贡献优秀版主论坛元老


发表于 2016.4.20 09:45:46 | 显示全部楼层
哈哈,这个提取工具很久很久以前写的咯,
使用起来不够便捷,
运行速度也慢
目前已经更新,并作为众多功能的一部分
集成到以下软件
https://github.com/CJ-Chen/TBtools
觉得有用的,欢迎在github上star或者捐助应用的开发

点评

看来是大神啊,厉害厉害,没事多到论坛转转,分享些好软件。  发表于 2016.4.20 22:55
不错的应用平台  发表于 2016.4.20 15:58

评分

参与人数 1奥币 +10 贡献 +10 收起 理由
基迪奥-周煌凯 + 10 + 10

查看全部评分

回复 支持 2 反对 0

使用道具 举报

版主

Rank: 10Rank: 10Rank: 10

主题
26
注册时间
2016.1.13
在线时间
255 小时

突出贡献优秀版主


发表于 2016.4.8 09:49:56 | 显示全部楼层
怎么没有回复啊,我也好像知道啊,帮顶!
回复 支持 反对

使用道具 举报

版主

Rank: 10Rank: 10Rank: 10

主题
21
注册时间
2015.12.29
在线时间
454 小时

突出贡献优秀版主热心会员


发表于 2016.4.8 10:21:07 | 显示全部楼层
写个perl脚本
新的一天加油!
回复 支持 反对

使用道具 举报

版主

Rank: 10Rank: 10Rank: 10

主题
10
注册时间
2016.1.14
在线时间
409 小时

突出贡献论坛元老


 楼主| 发表于 2016.4.8 14:19:19 | 显示全部楼层

R语言都是勉强懂怎么运行,perl脚本怎么写,求大神赐一个
回复 支持 反对

使用道具 举报

版主

Rank: 10Rank: 10Rank: 10

主题
26
注册时间
2016.1.13
在线时间
255 小时

突出贡献优秀版主


发表于 2016.4.8 16:25:19 | 显示全部楼层
9494,共享脚本
回复 支持 反对

使用道具 举报

版主

Rank: 10Rank: 10Rank: 10

主题
10
注册时间
2016.1.14
在线时间
409 小时

突出贡献论坛元老


 楼主| 发表于 2016.4.9 11:32:28 | 显示全部楼层
现在大神都去灌水了,没人关心我们的正经的帖子
回复 支持 反对

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
49
注册时间
2015.12.5
在线时间
539 小时

活跃会员论坛元老


发表于 2016.4.9 11:55:37 | 显示全部楼层
用法:
perl getseqbyid.pl <id.list> <database.fasta> <output.fasta>

备注:这是perl脚本,<id.list>是 目标基因名称列表的txt文件,一行一个基因名称。 <database.fasta> 是你的整个fasta文件。<output.fasta> 是输出文件的名称。

代码如下:
[Perl] 纯文本查看 复制代码
#!/usr/bin/perl -w
use strict;

if(@ARGV==0){print "perl $0   <id.list> <database.fasta> <output.fasta>\n"; exit 1}
my $list = $ARGV[0];
my $data = $ARGV[1];
my $outs = $ARGV[2];


my @list = ();
open (LIST,$list) or die "Cannot open file $list: $!\n";
while (my $id = <LIST>) {
    chomp $id;
    $id =~ s/\s//g;
    push @list, $id
}
close LIST;

my %seq = ();
my $sid = ();
open (IN, $data) or die "Cannot open file $data: $!\n";;
while (<IN>) {
    if (/^\>(\S+)/) {
        $sid = $1;
        my @w = split /\|/, $sid;
        if (@w > 2) {
            $sid = $w[2];   
        } else {
            $sid = $w[0];
        }
    } else {
        $seq{$sid} .= $_;
    }
}
close IN;


open (OUT, ">$outs") or die "Cannot create file $outs: $!\n";
foreach my $id (@list) {
    print OUT ">$id\n";
    print OUT $seq{"$id"};
}
close OUT;


脚本如下附件,使用的时候请把txt拓展名去掉。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
新的一天加油!
回复 支持 反对

使用道具 举报

版主

Rank: 10Rank: 10Rank: 10

主题
10
注册时间
2016.1.14
在线时间
409 小时

突出贡献论坛元老


 楼主| 发表于 2016.4.12 20:37:34 | 显示全部楼层
逝瞳就是牛羊羊 发表于 2016.4.12 19:01
我有一个朋友写的JAVA小工具,可以很方便的做序列提取,不用自己写perl,在这里分享给楼主吧,希望楼主用的 ...

界面很流畅,121条序列不到30S运行结束

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 支持 反对

使用道具 举报

帝王蝶

Rank: 4

主题
3
注册时间
2016.1.28
在线时间
11 小时

发表于 2016.4.13 10:15:39 | 显示全部楼层
我是直接打开FASTA文件在里面搜索 序列名字。。。
回复 支持 反对

使用道具 举报

版主

Rank: 10Rank: 10Rank: 10

主题
10
注册时间
2016.1.14
在线时间
409 小时

突出贡献论坛元老


 楼主| 发表于 2016.4.13 16:26:34 | 显示全部楼层
zooooooe007 发表于 2016.4.13 10:15
我是直接打开FASTA文件在里面搜索 序列名字。。。

序列少都是这样收索,但是如果几十条序列的化用软件就很快就,很方便的
回复 支持 反对

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
14
注册时间
2016.1.4
在线时间
214 小时

发表于 2016.4.26 00:08:02 | 显示全部楼层
Wuii 发表于 2016.4.20 09:45
哈哈,这个提取工具很久很久以前写的咯,
使用起来不够便捷,
运行速度也慢

没动怎么用啊,之前的版本运行起来确实挺慢呢
回复 支持 反对

使用道具 举报

版主

Rank: 10Rank: 10Rank: 10

主题
15
注册时间
2016.4.20
在线时间
457 小时

突出贡献优秀版主论坛元老


发表于 2016.4.26 07:59:31 | 显示全部楼层
雪莲 发表于 2016.4.26 00:08
没动怎么用啊,之前的版本运行起来确实挺慢呢

嗯,用TBtools吧,速度快多了。
回复 支持 反对

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
14
注册时间
2016.1.4
在线时间
214 小时

发表于 2016.4.26 08:51:59 | 显示全部楼层
Wuii 发表于 2016.4.26 07:59
嗯,用TBtools吧,速度快多了。

你好!软件运行时,提醒:please set the full path include outfile name of output file,可是设置set output fasta file时只能选到文件夹,选不了文件呢,我应该怎么做?请指点,谢谢!
回复 支持 反对

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
49
注册时间
2015.12.5
在线时间
539 小时

活跃会员论坛元老


发表于 2016.4.26 09:24:48 | 显示全部楼层
雪莲 发表于 2016.4.26 08:51
你好!软件运行时,提醒:please set the full path include outfile name of output file,可是设置set  ...

out file的 文件名是你自己填写的。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
新的一天加油!
回复 支持 反对

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
14
注册时间
2016.1.4
在线时间
214 小时

发表于 2016.4.26 11:02:56 | 显示全部楼层
Wuii 发表于 2016.4.26 07:59
嗯,用TBtools吧,速度快多了。


你好!我运行TBtools,为啥缺少输入文件名的那一栏呢?我用的是MAC,麻烦帮我看看,谢谢

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 支持 反对

使用道具 举报

版主

Rank: 10Rank: 10Rank: 10

主题
15
注册时间
2016.4.20
在线时间
457 小时

突出贡献优秀版主论坛元老


发表于 2016.4.26 12:00:49 | 显示全部楼层
本帖最后由 Wuii 于 2016.4.26 12:02 编辑
雪莲 发表于 2016.4.26 11:02
你好!我运行TBtools,为啥缺少输入文件名的那一栏呢?我用的是MAC,麻烦帮我看看,谢谢
...

mac下的文件选择框 或者 文件夹选择框是这样的。
建议直接拖拽
也就是 将文件直接拖到文本框,TBtools会自动获取路径
随后要在路径后补齐 输出文件的名字。。。
回复 支持 反对

使用道具 举报

版主

Rank: 10Rank: 10Rank: 10

主题
15
注册时间
2016.4.20
在线时间
457 小时

突出贡献优秀版主论坛元老


发表于 2016.4.26 12:04:35 | 显示全部楼层
基迪奥-周煌凯 发表于 2016.4.26 09:24
out file的 文件名是你自己填写的。

嗯,无论是摁钮还是拖拽输入,都要在完成之后,自己补齐文件名
哈哈,谢谢
回复 支持 反对

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
14
注册时间
2016.1.4
在线时间
214 小时

发表于 2016.4.26 12:16:09 | 显示全部楼层
Wuii 发表于 2016.4.26 12:04
嗯,无论是摁钮还是拖拽输入,都要在完成之后,自己补齐文件名
哈哈,谢谢 ...

谢谢老师,实现了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表