TCGA基因查询


*
*ProVIP免费
*VIP免费
*当前账户剩余0次

一.目标基因输入

‘示例文件’‘说明’面板中可查看所需基因输入格式。若输入基因数目较多,建议整理基因列表文档通过‘输入文件’方式上传;若输入基因数目较少,采用‘手动输入’方式更加便捷。输入需查询的基因列表后,点击‘提交’即可。

 

 

二.TCGA数据探索

同一页面直接下滑,在‘结果展示’页中切换对应项目编号,可切换到TCGA数据探索版块,默认进入泛癌(Pan-cancer)差异表达版块。

 

 

1) 表达量差异

在表达量差异探索版块中,下拉选择目标基因、选择感兴趣的癌症、切换不同的临床分组,可查看该基因在该癌症不同分组下的表达量差异。差异检验可选择T检验、秩和检验或单因素方差。

 

 

点击右上方‘修改参数’按钮,可按需对箱线图各项参数进行个性化调整,如标题、字体、字号、显示显著性标记、配色自定义等。

 

 

2) 生存分析

在生存分析探索版块中,下拉选择目标基因与感兴趣的癌症,可查看对应生存曲线和logrank差异检验结果表。

 

/低表达分组cutoff:中位数

生存时间:总生存期(OS

 

 

3) 单因素cox回归

在单因素cox比例风险回归探索版块中,下拉选择目标基因与感兴趣的癌症,可查看对应基因在选择癌症的单因素cox建模结果表,并绘制单因素风险森林图,森林图参数同样动态可调。

 

 

4) 相关性分析

在相关性分析探索版块中,下拉选择目标基因与感兴趣的癌症,可获得目标基因在选择癌症中,与表达矩阵中全部基因(低表达基因过滤标准:在该癌症50%以上样本中表达量为0)的相关性计算表,提供pearsonspearman两种相关性和显著性计算结果。区分癌和癌旁样本,支持筛选和排序。

 

 

三.帮助文档

通过工具右侧‘说明’和‘例子’处可查看工具概况和使用说明,详细说明可参考结果展示栏目右侧各版块对应帮助文档。

 

 

四.结果输出

各版块图表、统计检验结果都支持下载到本地,可按需探索与保存。

一.功能

输入目标基因,对TCGA数据库中33类癌症的RNA-seq和临床数据从四大分析层面(表达量差异、生存分析、单因素cox、相关性分析)进行探索和公共数据挖掘,可输出所需的图表或统计检验表格。

 

 

二.适用范围

TCGA公共数据挖掘,适用医学或肿瘤研究领域。

 

三.输入

文件格式:输入文件支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式,同样支持旧版Excelxls(Excel 97-2003 )格式。也支持手动输入。

 

输入内容:需要查询的基因列表,基因ID类型支持SymbolEnsembl,每行一个ID输入/查询的基因上限为30

 

四.结果查询与输出

从四个分析层面对目标基因进行癌症数据挖掘,基因、癌症可自由切换,图表和统计检验表格支持下载:

1) 表达量差异

查询目标基因在TCGA数据库33类癌症不同分组下(癌/癌旁、年龄、性别、种族、病理分期、临床分期、肿瘤分级等)的RNA-seq表达量差异,支持泛癌层面癌/癌旁的差异比较,支持三种检验(T检验、秩和检验、单因素方差)自由选择。

2) 生存分析

通过生存分析探究目标基因在TCGA数据库33类癌症下表达量高低(二分类变量)在总生存期(OS)内对患者生死的影响。

3) 单因素cox比例风险回归模型

通过单因素cox回归探究目标基因在TCGA数据库33类癌症下表达水平(连续型变量)在总生存期内(OS)对患者风险影响。

4) 相关性分析

将查询基因与TCGA数据库33类癌症表达矩阵中的全部基因进行相关性分析,提供pearsonspearman两种相关性和显著性计算结果。

 

*各部分详细说明见结果展示中对应帮助文档

 

*RNA-seq数据源(TPM):

https://docs.gdc.cancer.gov/Data/Release_Notes/Data_Release_Notes/#data-release-320

*临床数据源:

https://xenabrowser.net/datapages/?host=https%3A%2F%2Fgdc.xenahubs.net&removeHub=http%3A%2F%2F127.0.0.1%3A7222

Q1. 上传的数据需要保存成什么格式?文件名称和拓展名有没有要求?

 

OmicShare当前支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式,同样支持旧版Excel的xls(Excel 97-2003 )格式。如果是核酸、蛋白序列文件,必须为FASTA格式(本质是文本文件)。

 

文件名可由英文和数字构成,文件拓展名没有限制,可以是“.txt”、“.xlsx”、“.xls”、“.csv”“.fasta”等,例如 mydata01.txt,gene02.xlsx 。

 

Q2. 提交时报错常见问题:

 

1.提交时显示X行X列空行/无数据,请先自查表格中是否存在空格或空行,需要删掉。

2.提交时显示列数只有1列,但表格数据不止1列:列间需要用分隔符隔开,先行检查文件是否用了分隔符。

其它提示报错,请先自行根据提示修改;如果仍然无法提交,可通过左侧导航栏的“联系客服”选项咨询OmicShare客服。

 

Q3. 提交的任务完成后却不出图该怎么办?

 

主要原因是上传的数据文件存在特殊符号所致。可参考以下建议逐一排查出错原因:
(1)数据中含中文字符,把中文改成英文;
(2) 数据中含特殊符号,例如 %、NA、+、-、()、空格、科学计数、罗马字母等,去掉特殊符号,将空值用数字“0”替换;
(3)检查数据中是否有空列、空行、重复的行、重复的列,特别是行名(一般为gene id)、列名(一般为样本名)出现重复值,如果有删掉。
排查完之后,重新上传数据、提交任务。如果仍然不出图,可通过左侧导航栏的“联系客服”选项咨询OmicShare客服。

 

Q4.下载的结果文件用什么软件打开?

 

OmicShare云平台的结果文件(例如,下图为KEGG富集分析的结果文件)包括两种类型:图片文件和文本文件。

图片文件:

为了便于用户对图片进行后期编辑,OmicShare同时提供位图(png)和矢量图(pdf、svg)两种类型的图片。对于矢量图,最常见的是pdf和svg格式,常用Ai(Adobe illustrator)等进行编辑。其中,svg格式的图片可用网页浏览器打开,也可直接在word、ppt中使用。

 

文本文件:

文本文件的拓展名主要有4种类型:“.os”、“.xls”、“.log”和“.txt”。这些文件本质上都是制表符分隔的文本文件,使用记事本、Notepad++、EditPlus、Excel等文本编辑器直接打开即可。结果文件中,拓展名为“.os”文件为上传的原始数据;“.xls”文件一般为分析生成的数据表格;“.log”文件为任务运行日志文件,便于检查任务出错原因。

 

Q5. 提交的任务一直在排队怎么办?

 

提交任务后都需要排队,1分钟后,点击“任务状态刷新”按钮即可。除了可能需运行数天的注释工具,一般工具数十秒即可出结果,如果超出30分钟仍无结果,请联系OS客服,发送任务编号给OmicShare客服,会有专人为你处理任务问题。

 

Q6. 结果页面窗口有问题,图表加载不出来怎么办?

尝试用谷歌浏览器登录OmicShare查看结果文件,部分浏览器可能不兼容。

结果展示