OmicShare Tools - 基迪奥生信云工具

CAZy注释

项目编号：

序列文件： *

选择文件示例文件

序列类型：

1092

1560

兑换券

*VIP专属优惠，注释工具7折

*当前账户剩余0次

CAZy数据库功能注释简介

CAZy 全称为Carbohydrate-Active enZYmes Database，是碳水化合物酶相关的专业数据库，包括催化碳水化合物和糖复合物的生物合成、降解以及修饰的相关酶系家族，根据蛋白质结构域中氨基酸序列的相似性，划分为5个类别：糖苷水解酶（Glycoside Hydrolases, GHs）、糖基转移酶（Glycosyl Transferases, GTs）、多糖裂解酶（Polysaccharide Lyases, PLs）、碳水化合物酯酶（Carbohydrate Esterases, CEs），碳水化合物辅助酶类（Auxiliary Activities，AAs），以及1个模块：碳水化合物结合结构域（Carbohydrate-Binding Modules，CBMs）。

使用DIAMOND默认参数将目标序列CAZy数据库比对。

输入文件

上传fasta格式的核酸或蛋白query序列文件。

结果

1. 注释结果

1）注释总表

2）A级分类统计（5个类别和1个模块）

3）B级分类统计（各类别子分类的基因列表）

2. CAZy各类别注释结果统计

对5个类别和1个模块的注释结果统计并画柱形图。

3.比对结果统计饼图

（1）将比对上的与比对不上的序列数目进行统计并画饼图。

（2）E值分布统计

1. 注释结果

1）注释总表

表头解释：

Query_id ：输入序列的编号

Query_length:输入序列的长度

Query_start ：比对上的部分在query序列上的起始位置

Query _end ：比对上的部分在query序列上的终止位置

Subject_id ：比对到数据库中序列编号

Subject_length：数据库中比对上的序列的长度

Subject_start：比对上的部分在数据库序列上的起始位置

Subject_end：比对上的部分在数据库序列上的终止位置

Identity(%) ：比对的相似性（百分比）

Positive：匹配上的碱基或氨基酸数目

Gap：Gap 的数目

Align_length：匹配部分的长度

Score：比对的打分（打分越高，可信度越高）

E_value ：比对的 E值（E值越小，可信度越高）

Subject_annotation :CAZy数据库分类名称

2）A级分类统计（5个类别和1个模块）

对5个类别和1个模块的注释结果统计。

Class: 数据库中的分类缩写

Calss name:数据库中的分类名称

Count：注释为该分类的序列数量

3）B级分类统计（各类别子分类的基因列表）

2. CAZy各类别注释结果统计

对5个类别和1个模块的注释结果统计绘图如下：

3.比对结果统计饼图

（1）将比对上的与比对不上的序列数目进行统计并画饼图。

（2）E值分布统计

E值是指期望数据库中具有某一统计学意义配对序列的值，可理解为比对的假阳性率。E值越小，结果越可靠。对E值分为5个范围进行统计，并画饼图。

Q1. 上传的数据需要保存成什么格式？文件名称和拓展名有没有要求？

OmicShare当前支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式，同样支持旧版Excel的xls(Excel 97-2003 )格式。如果是核酸、蛋白序列文件，必须为FASTA格式（本质是文本文件）。

文件名可由英文和数字构成，文件拓展名没有限制，可以是“.txt”、“.xlsx”、“.xls”、“.csv”“.fasta”等，例如 mydata01.txt，gene02.xlsx 。

Q2.注释工具的任务一般要跑多久？

注释工具的任务时长一般与提交的序列条数成正比，且不同工具耗时也差异很大。例如GO功能注释近一年来所有任务平均时长约为2天，而NR注释工具近一年来所有任务平均时长约为3小时。一般情况下，如果任务耗时超出一周可联系OS客服，发送任务编号给OmicShare客服，会有专人为你处理任务问题。