功能介绍:
KOG数据库是COG工具的真核特异性版本,构成每个 COG/KOG 的蛋白都是被假定为来自于一个祖先蛋白,并且因此或者是 orthologs 或者是 paralogs。Orthologs 是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能。Paralogs是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。KOG数据库包含25大类的功能,每个KOG都有一个特定的功能描述。
输入:
输入fasta格式的核酸或蛋白query序列,或上传fasta格式的query序列文件
输出结果:
1. 序列注释结果总表
包含E value、 Score值、 描述信息的注释结果表。
2.比对结果统计饼图
将比对上的与比对不上的序列数目进行统计并画饼图。
1. 序列注释结果总表
Query_id Unigene 序列的ID号
Subject_id 比对到 COG数据库中序列名
Organism Species(OS) 比对到的序列的物种名
Gene Name(GN) 比对到的序列的基因名
Identity(%) 比对的相似性(百分比)
Align_length 比对上的长度
Mis_match 比对的错配数
Gap Gap 的数目
Query_start 比对上的部分在 query序列上的起始位置
Query_end 比对上的部分在query序列上的终止位置
Subject_start 比对上的部分在 COG 序列上的起始位置
Subject_end 比对上的部分在 COG 序列上的终止位置
E_value 比对的 E值(E值越小,可信度越高)
Score 比对的打分(打分越高,可信度越高)
Protein-or-Domain 比对上的蛋白或结构域
KOG-ID KOG 的 ID
Function-Description 功能描述
Code KOG功能代号
Functional-Categories KOG 功能分类
2.比对结果统计饼图
将比对上的与比对不上的序列数目进行统计并画饼图。
表1. KOG比对结果数目统计表
Total sequence number |
Annotation sequences |
Without annotation sequences |
|
|
|
3.KOG分类统计柱状图
对KOG的分类进行统计,并绘制柱状图
表2. KOG 分类表
Code |
Functional-Categories |
Gene-Number |
Genes |
A |
RNA processing and modification |
46 |
Unigene0003846,KOG5180 Unigene0004454,KOG5147 ... |
B |
Chromatin structure and dynamics |
99 |
Unigene0003587,KOG2036 Unigene0003593,KOG0123 ... |
C |
Energy production and conversion |
331 |
Unigene0003680,KOG1819 Unigene0003731,KOG1053 ... |
表头解释
Code KOG 功能代号
Functional-Categories KOG 功能分类
Gene-Number Unigene 在各 KOG 功能分类的数量
Genes Unigene 在各 KOG 功能分类的序列ID
KOG功能分类图
4. 比对结果E值分布
E值是指期望数据库中具有某一统计学意义配对序列的值,可理解为比对的假阳性率。E值越小,结果越可靠。对E值分为5个范围进行统计,并画饼图。

Q1. 上传的数据需要保存成什么格式?文件名称和拓展名有没有要求?
OmicShare当前支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式,同样支持旧版Excel的xls(Excel 97-2003 )格式。如果是核酸、蛋白序列文件,必须为FASTA格式(本质是文本文件)。
文件名可由英文和数字构成,文件拓展名没有限制,可以是“.txt”、“.xlsx”、“.xls”、“.csv”“.fasta”等,例如 mydata01.txt,gene02.xlsx 。
Q2.注释工具的任务一般要跑多久?
注释工具的任务时长一般与提交的序列条数成正比,且不同工具耗时也差异很大。例如GO功能注释近一年来所有任务平均时长约为2天,而NR注释工具近一年来所有任务平均时长约为3小时。一般情况下,如果任务耗时超出一周可联系OS客服,发送任务编号给OmicShare客服,会有专人为你处理任务问题。