功能介绍:
ARDB数据库全称为Antibiotic Resistance Genes Database,该数据库整合了来自NCBI和SwissProt数据库的13,254个耐药基因信息,经过数据过滤和去重后,保留4,554个完整非冗余的耐药蛋白数据。这些基因共包含377种类型、257种抗生素、124个门3,369个物种。通过该数据库的注释,可以找到耐药性相关基因的名称,所耐受的抗生素种类等信息。
利用Blast比对软件将目标序列比对到ARDB数据库。Blast通过寻找两条序列之间的局部相似性,得到跟目标序列具有最高序列相似性的蛋白,从而推断序列的蛋白功能与进化关系。
输入文件:
上传fasta格式的核酸或蛋白query序列文件。
输出结果:
1.序列注释结果总表
包含E value、 Score值、 描述信息的注释结果表。2.比对结果统计饼图
将比对上的与比对不上的序列数目进行统计并画饼图。
结果范例:
1. 序列注释结果总表
Resistance Type |
Description |
Resistance Profile |
NJ1711654 |
baca |
Undecaprenyl pyrophosphate phosphatase. |
bacitracin |
NJ1711654_0470 |
pbp2b |
The enzyme has a penicillin-insensitive transglycosylase N-terminal domain |
penicillin |
NJ1711654_0475 |
#结果表格说明:
比对ARDB结果表格各列含义如下:
Identity:序列相似度
E_value:比对E值,越低表示可靠性越高
Score:比对分值,越高表示比对结果越好
Resistance Type:抗性类型
Description:功能描述
Resistance Profile:抗生素种类
最后一列:对应基因组基因
2.比对结果统计饼图
将比对上的与比对不上的序列数目进行统计并画饼图。
表1. ARDB比对结果数目统计表
Total sequence number |
Annotation sequences |
Without annotation sequences |
|
|
|
3. E值分布图
E值是指期望数据库中具有某一统计学意义配对序列的值,可理解为比对的假阳性率。E值越小,结果越可靠。对E值分为5个范围进行统计,并画饼图。
Q1. 上传的数据需要保存成什么格式?文件名称和拓展名有没有要求?
OmicShare当前支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式,同样支持旧版Excel的xls(Excel 97-2003 )格式。如果是核酸、蛋白序列文件,必须为FASTA格式(本质是文本文件)。
文件名可由英文和数字构成,文件拓展名没有限制,可以是“.txt”、“.xlsx”、“.xls”、“.csv”“.fasta”等,例如 mydata01.txt,gene02.xlsx 。
Q2.注释工具的任务一般要跑多久?
注释工具的任务时长一般与提交的序列条数成正比,且不同工具耗时也差异很大。例如GO功能注释近一年来所有任务平均时长约为2天,而NR注释工具近一年来所有任务平均时长约为3小时。一般情况下,如果任务耗时超出一周可联系OS客服,发送任务编号给OmicShare客服,会有专人为你处理任务问题。