PHI注释


*
选择文件 示例文件
*VIP专属优惠,注释工具7折
*当前账户剩余0次

PHI-basePathogen Host Interactions),病原宿主互作数据库,是一个免费开放的数据库,收录了经过实验验证或文献报道的能够感染植物、动物、真菌和昆虫的真菌、卵菌、细菌等病原菌的致病基因、毒力基因和效应蛋白基因。另外,数据库还收录了抗真菌化合物及其靶基因。

截至2018.11,最新版本为4.6,共收录6438个基因、11340对互作关系、263个病原菌、194个宿主、510种疾病。使用DIAMOND默认参数进行比对。

输入文件

上传fasta格式的核酸或蛋白query序列文件。

结果

1.序列注释结果总表

2.比对结果统计饼图

1)将比对上的与比对不上的序列数目进行统计并画饼图。

2)E-value分布图

E值是指期望数据库中具有某一统计学意义配对序列的值,可理解为比对的假阳性率。E值越小,结果越可靠。对E值分为5个范围进行统计,并画饼图。


1. 比对结果总表

表头解释:

Query_id:查询序列编号

Subject_idPHI数据库对应基因编号

Query_start:查询序列比对起始位点

Query_end:查询序列比对终止位点

Subject_start:比对上的部分在在数据库序列上的起始位点

Subject_end:比对上的部分在在数据库序列上的终止位点

Align_length:比对上的长度

Positive:比对上的氨基酸或碱基数

GapGap 的数目

Coverage: query比对上subject序列的覆盖度

Identity(%):序列相似度

E_value:比对E值,越低表示可靠性越高

Score:比对的打分(打分越高,可信度越高)

DB_Type:参考基因的数据库来源

Accession:来源数据库对应编号

Gene_name:基因名称

Pathogen_NCBI _ID:病原菌NCBI物种分类ID

Pathogen_species:病原菌物种

Disease_name:所引起疾病

Host_Descripton:宿主描述信息

Host_NCBI_ ID:宿主NCBI物种分类ID

Experimental_host:宿主名称

Function:蛋白功能

2. 比对结果统计饼图

将比对上的与比对不上的序列数目进行统计并画饼图。

3. E值分布统计

E值是指期望数据库中具有某一统计学意义配对序列的值,可理解为比对的假阳性率。E值越小,结果越可靠。对E值分为5个范围进行统计,并画饼图。


Q1. 上传的数据需要保存成什么格式?文件名称和拓展名有没有要求?

 

OmicShare当前支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式,同样支持旧版Excel的xls(Excel 97-2003 )格式。如果是核酸、蛋白序列文件,必须为FASTA格式(本质是文本文件)。

 

文件名可由英文和数字构成,文件拓展名没有限制,可以是“.txt”、“.xlsx”、“.xls”、“.csv”“.fasta”等,例如 mydata01.txt,gene02.xlsx 。

 

Q2.注释工具的任务一般要跑多久?

注释工具的任务时长一般与提交的序列条数成正比,且不同工具耗时也差异很大。例如GO功能注释近一年来所有任务平均时长约为2天,而NR注释工具近一年来所有任务平均时长约为3小时。一般情况下,如果任务耗时超出一周可联系OS客服,发送任务编号给OmicShare客服,会有专人为你处理任务问题。