OmicShare Tools - 基迪奥生信云工具

NR注释

项目编号：

序列文件： *

选择文件示例文件

序列类型：

物种：

1638

2340

兑换券

*VIP专属优惠，注释工具7折

*当前账户剩余0次

目前有很多的数据库都存储了蛋白序列，在各个数据库之间，或者是在某个数据库中，蛋白序列有大量冗余。因此，NCBI构建了非冗余蛋白序列数据库--NR（Non-Redundant Protein Sequence Database），数据来源于GenPept、Swissprot、PIR、PDF、PDB和NCBI RefSeq，是默认的蛋白比对数据库。对于所有已知的或可能的编码序列，NR记录中都给出了相应的氨基酸序列（通过已知或可能的读码框推断而来）以及专门蛋白数据库中的序列号。NR库相当于一个以核酸序列为基础的交叉索引，将核酸数据和蛋白数据联系起来。

输入文件

1.选择文件

输入fasta格式的核酸或蛋白query序列或上传fasta格式的query序列文件。

2. 选择物种

选择NR数据库的数据集

输出结果

1 注释结果

表1 注释信息统计表

2. 注释结果统计

1）将注释上的与注释不上的序列数目进行统计并画饼图。

表2 注释结果数目统计表

图1 注释结果数目统计饼图

2）E值分布统计

E值是指期望数据库中具有某一统计学意义配对序列的值，可理解为比对的假阳性率。E值越小，结果越可靠。对E值分为5个范围进行统计，并画饼图。

表3 E值分布统计表

图2 E值分布统计饼图

输出结果说明

表1 注释信息统计表

Query_id Unigene序列的ID号

Query_length Unigene序列的长度

Query_start 比对上的部分在 query序列上的起始位置

Query_end 比对上的部分在query序列上的终止位置

Subject_id 比对到NR数据库中序列名

Subject_length 比对上的部分在NR序列上的长度

Subject_start 比对上的部分在 NR序列上的起始位置

Subject_end 比对上的部分在 NR序列上的终止位置

Identity(%) 比对的相似性（百分比）

Align_length 比对上的长度

Gap Gap 的数目

E_value 比对的 E值（E值越小，可信度越高）

Score 比对的打分（打分越高，可信度越高）

Subject_annotation NR序列的描述

表2 注释结果数目统计表表头解释

Total sequence number 输入的所有序列数

Annotation sequences 注释上的序列数

Without annotation sequences 没有注释上的序列数

图1 注释结果数目统计饼图

图2 E值分布统计饼图

Q1. 上传的数据需要保存成什么格式？文件名称和拓展名有没有要求？

OmicShare当前支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式，同样支持旧版Excel的xls(Excel 97-2003 )格式。如果是核酸、蛋白序列文件，必须为FASTA格式（本质是文本文件）。

文件名可由英文和数字构成，文件拓展名没有限制，可以是“.txt”、“.xlsx”、“.xls”、“.csv”“.fasta”等，例如 mydata01.txt，gene02.xlsx 。

Q2.注释工具的任务一般要跑多久？

注释工具的任务时长一般与提交的序列条数成正比，且不同工具耗时也差异很大。例如GO功能注释近一年来所有任务平均时长约为2天，而NR注释工具近一年来所有任务平均时长约为3小时。一般情况下，如果任务耗时超出一周可联系OS客服，发送任务编号给OmicShare客服，会有专人为你处理任务问题。