CAZy数据库功能注释简介
CAZy 全称为Carbohydrate-Active enZYmes Database,是碳水化合物酶相关的专业数据库,包括催化碳水化合物和糖复合物的生物合成、降解以及修饰的相关酶系家族,根据蛋白质结构域中氨基酸序列的相似性,划分为5个类别:糖苷水解酶(Glycoside Hydrolases, GHs)、糖基转移酶(Glycosyl Transferases, GTs)、多糖裂解酶(Polysaccharide Lyases, PLs)、碳水化合物酯酶(Carbohydrate Esterases, CEs),碳水化合物辅助酶类(Auxiliary Activities,AAs),以及1个模块:碳水化合物结合结构域(Carbohydrate-Binding Modules,CBMs)。
使用DIAMOND默认参数将目标序列CAZy数据库比对。
输入文件
上传fasta格式的核酸或蛋白query序列文件。
结果
1. 注释结果
1)注释总表
2)A级分类统计(5个类别和1个模块)
3)B级分类统计(各类别子分类的基因列表)
2. CAZy各类别注释结果统计
对5个类别和1个模块的注释结果统计并画柱形图。
3.比对结果统计饼图
(1)将比对上的与比对不上的序列数目进行统计并画饼图。
(2)E值分布统计
1. 注释结果
1)注释总表
表头解释:
Query_id :输入序列的编号
Query_length:输入序列的长度
Query_start :比对上的部分在query序列上的起始位置
Query _end :比对上的部分在query序列上的终止位置
Subject_id :比对到数据库中序列编号
Subject_length:数据库中比对上的序列的长度
Subject_start:比对上的部分在数据库序列上的起始位置
Subject_end:比对上的部分在数据库序列上的终止位置
Identity(%) :比对的相似性(百分比)
Positive:匹配上的碱基或氨基酸数目
Gap:Gap 的数目
Align_length:匹配部分的长度
Score:比对的打分(打分越高,可信度越高)
E_value : 比对的 E值(E值越小,可信度越高)
Subject_annotation :CAZy数据库分类名称
2)A级分类统计(5个类别和1个模块)
对5个类别和1个模块的注释结果统计。
Class: 数据库中的分类缩写
Calss name:数据库中的分类名称
Count:注释为该分类的序列数量
3)B级分类统计(各类别子分类的基因列表)

2. CAZy各类别注释结果统计
对5个类别和1个模块的注释结果统计绘图如下:
3.比对结果统计饼图
(1)将比对上的与比对不上的序列数目进行统计并画饼图。
(2)E值分布统计
E值是指期望数据库中具有某一统计学意义配对序列的值,可理解为比对的假阳性率。E值越小,结果越可靠。对E值分为5个范围进行统计,并画饼图。
Q1. 上传的数据需要保存成什么格式?文件名称和拓展名有没有要求?
OmicShare当前支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式,同样支持旧版Excel的xls(Excel 97-2003 )格式。如果是核酸、蛋白序列文件,必须为FASTA格式(本质是文本文件)。
文件名可由英文和数字构成,文件拓展名没有限制,可以是“.txt”、“.xlsx”、“.xls”、“.csv”“.fasta”等,例如 mydata01.txt,gene02.xlsx 。
Q2.注释工具的任务一般要跑多久?
注释工具的任务时长一般与提交的序列条数成正比,且不同工具耗时也差异很大。例如GO功能注释近一年来所有任务平均时长约为2天,而NR注释工具近一年来所有任务平均时长约为3小时。一般情况下,如果任务耗时超出一周可联系OS客服,发送任务编号给OmicShare客服,会有专人为你处理任务问题。