OmicShare Tools - 基迪奥生信云工具

项目编号：

序列文件： *

选择文件示例文件

序列类型：

1638

2340

兑换券

*VIP专属优惠，注释工具7折

*当前账户剩余0次

功能介绍：

Swiss-Prot是经过注释的去冗余的蛋白质序列数据库，隶属于UniProt数据库，到2018年底共收录558,898条序列信息。Swiss-Prot可提供蛋白质序列的详尽注释信息，序列注释包括蛋白质功能、蛋白质翻译后修饰、结构域和结合位点、二级结构、四级结构、蛋白质缺陷相关疾病等信息。

利用DIAMOND比对软件将目标序列比对到Swiss-Prot数据库。DIAMOND通过寻找两条序列之间的局部相似性，得到跟目标序列具有最高序列相似性的蛋白，从而推断序列的蛋白功能与进化关系。

输入：

输入fasta格式的核酸或蛋白query序列.

输出：

①比对结果总表

②比对结果统计饼图（比对上的与比对不上的序列数目、E值分布统计饼图）

输出结果：

1. 比对结果总表

表头解释：

Query_id Unigene 序列的ID号

Subject_id 比对到 Swiss-Prot数据库中序列名

Identity(%) 比对的相似性（百分比）

Align_length 比对上的长度

Mis_match 比对的错配数

Gap Gap 的数目

Query_start 比对上的部分在 query序列上的起始位置

Query_end 比对上的部分在query序列上的终止位置

Subject_start 比对上的部分在 Swiss-Prot 序列上的起始位置

Subject_end 比对上的部分在 Swiss-Prot 序列上的终止位置

E_value 比对的 E值（E值越小，可信度越高）

Score 比对的打分（打分越高，可信度越高）

Subject_annotation Swiss-Prot 序列的描述

2. 比对结果统计饼图

① 比对上的与比对不上的序列数目统计表与饼图

② E值分布统计饼图

E值是指期望数据库中具有某一统计学意义配对序列的值，可理解为比对的假阳性率。E值越小，结果越可靠。对E值分为5个范围进行统计，并画饼图。

Q1. 上传的数据需要保存成什么格式？文件名称和拓展名有没有要求？

OmicShare当前支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式，同样支持旧版Excel的xls(Excel 97-2003 )格式。如果是核酸、蛋白序列文件，必须为FASTA格式（本质是文本文件）。

文件名可由英文和数字构成，文件拓展名没有限制，可以是“.txt”、“.xlsx”、“.xls”、“.csv”“.fasta”等，例如 mydata01.txt，gene02.xlsx 。

Q2.注释工具的任务一般要跑多久？

注释工具的任务时长一般与提交的序列条数成正比，且不同工具耗时也差异很大。例如GO功能注释近一年来所有任务平均时长约为2天，而NR注释工具近一年来所有任务平均时长约为3小时。一般情况下，如果任务耗时超出一周可联系OS客服，发送任务编号给OmicShare客服，会有专人为你处理任务问题。