CAZy注释


*
选择文件 示例文件
*VIP专属优惠,注释工具7折
*当前账户剩余0次

CAZy数据库功能注释简介

CAZy 全称为Carbohydrate-Active enZYmes Database,是碳水化合物酶相关的专业数据库,包括催化碳水化合物和糖复合物的生物合成、降解以及修饰的相关酶系家族,根据蛋白质结构域中氨基酸序列的相似性,划分为5个类别:糖苷水解酶(Glycoside Hydrolases, GHs)、糖基转移酶(Glycosyl Transferases, GTs)、多糖裂解酶(Polysaccharide Lyases, PLs)、碳水化合物酯酶(Carbohydrate Esterases, CEs),碳水化合物辅助酶类(Auxiliary ActivitiesAAs),以及1个模块:碳水化合物结合结构域(Carbohydrate-Binding ModulesCBMs)。

使用DIAMOND默认参数将目标序列CAZy数据库比对。

输入文件

上传fasta格式的核酸或蛋白query序列文件。

结果

1. 注释结果

1)注释总表

2)A级分类统计(5个类别和1个模块)

3)B级分类统计(各类别子分类的基因列表)

2. CAZy各类别注释结果统计

对5个类别和1个模块的注释结果统计并画柱形图。

3.比对结果统计饼图

(1)将比对上的与比对不上的序列数目进行统计并画饼图。

(2)E值分布统计


1. 注释结果

1)注释总表


表头解释:

Query_id :输入序列的编号

Query_length:输入序列的长度

Query_start :比对上的部分在query序列上的起始位置

Query _end :比对上的部分在query序列上的终止位置

Subject_id :比对到数据库中序列编号

Subject_length:数据库中比对上的序列的长度

Subject_start:比对上的部分在数据库序列上的起始位置

Subject_end:比对上的部分在数据库序列上的终止位置

Identity(%) :比对的相似性(百分比)

Positive:匹配上的碱基或氨基酸数目

Gap:Gap 的数目

Align_length:匹配部分的长度

Score:比对的打分(打分越高,可信度越高)

E_value : 比对的 E值(E值越小,可信度越高)

Subject_annotation :CAZy数据库分类名称

2)A级分类统计(5个类别和1个模块

对5个类别和1个模块的注释结果统计

Class: 数据库中的分类缩写

Calss name:数据库中的分类名称

Count:注释为该分类的序列数量

3)B级分类统计(各类别子分类的基因列表)


2. CAZy各类别注释结果统计

对5个类别和1个模块的注释结果统计绘图如下:

3.比对结果统计饼图

(1)将比对上的与比对不上的序列数目进行统计并画饼图。

(2)E值分布统计

E值是指期望数据库中具有某一统计学意义配对序列的值,可理解为比对的假阳性率。E值越小,结果越可靠。对E值分为5个范围进行统计,并画饼图。

Q1. 上传的数据需要保存成什么格式?文件名称和拓展名有没有要求?

 

OmicShare当前支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式,同样支持旧版Excel的xls(Excel 97-2003 )格式。如果是核酸、蛋白序列文件,必须为FASTA格式(本质是文本文件)。

 

文件名可由英文和数字构成,文件拓展名没有限制,可以是“.txt”、“.xlsx”、“.xls”、“.csv”“.fasta”等,例如 mydata01.txt,gene02.xlsx 。

 

Q2.注释工具的任务一般要跑多久?

注释工具的任务时长一般与提交的序列条数成正比,且不同工具耗时也差异很大。例如GO功能注释近一年来所有任务平均时长约为2天,而NR注释工具近一年来所有任务平均时长约为3小时。一般情况下,如果任务耗时超出一周可联系OS客服,发送任务编号给OmicShare客服,会有专人为你处理任务问题。