查看: 267|回复: 5

[技术前沿] 是时候掌握真正的技术了,无编程一键获取TCGA全部数据!

[复制链接]

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
461
注册时间
2020.6.16
在线时间
304 小时

发表于 2022.1.4 15:23:35 | 显示全部楼层 |阅读模式
关于TCGA介绍和官方数据下载/合并的内容学习可以回看往期推文:
1. 《不做实验就能发SCI?!还有这等好事—TCGA初探》
2. 《如何快速批量获取最新的TCGA数据?》
3. 《一文拿捏住TCGA临床和表达量数据处理!》

上期最后提到过要给大家介绍一个非常简便的获取现成的临床和表达量数据的方法,这里直接告诉大家,就是使用UCSC 的Xena!

Xena官方链接:http://xena.ucsc.edu/


关于Xena数据下载的教程网上有不少,但大多数年代久远。首先教程提供的下载链接可能已经失效;其次都会告诉你批量下载至少要会一点shell命令;再者就是单纯下载单个数据集的方法。那大多数人不会shell咋办?今天给大家提供一个“曲线救国”的方法。

开始前先介绍一下UCSC Xena,总的来说,在Xena这个平台上,托管了来自超过35种癌症的1500 多个数据集,数据集来自于GDC、TCGA、TARGET等数据库的最新数据。那我们在这个平台上能做啥?大体分为三块儿。

1. 下载数据

前面说了,这里托管了许多癌症数据库的数据集,而通过前两期推文我们也能体会到,其实通过官方下载数据、整理数据花费的时间成本还挺高,许多人用Xena也是因为这里能够非常便捷下载到已整理好的数据。我们在谷歌学术看看文献引用量:

光搜UCSC Xena能出来4,700条;


Xena和TCGA更能搜到约5,000条。


2. 线上数据分析工具

前几年纯公共数据库挖掘非常热,也很好发高分文章;这年头想发高分,要不挖掘思路非常新颖,不然还是需要和自己的课题相结合,作为佐证提高文章档次。

那么部分研究人员可能并没有深厚编程基础来支持他挖挖挖,或者仅需要少量数据库分析佐证自己的观点,对于这一部分人群来说,比起花费大量时间学一门编程语言,直接使用线上分析工具来的更快,而Xena就是工具之一。

除了可以使用Xena下载数据,我们当然也能直接调用数据库分析和可视化基因组数据,如绘制散点图、条形图、箱线图、生存分析、基因组热图等,并用于文献发表(前面的谷歌学术引用量,一部分是使用了下载数据,一部分是使用了线上分析工具)。

3. 在Xena上传私人数据并做可视化分析

按照要求上传自己的相关数据(当然,是私密的),线上能做的分析就都能做啦。


今天的内容就是基于第一点,也就是通过Xena来获取我们所需要的癌症数据。

首先,进入Xena的数据下载页面,这里提供直达链接:
https://xenabrowser.net/datapages/

或者你可以通过在Xena主页点击Launch Xena进入启动页。


在进入的数据探索页(也就是做线上数据分析会用到的页面,下期再讲),点击左上角第一个DATA SETS


随即会进入Xena数据的存放页了。左侧是数据集列表,右侧为这些数据集来自的数据库。


现在我们需要获取TCGA数据库的数据,TCGA最新数据存放在GDC中,因此我们在右侧只勾选GDC Hub

此外,因为GDC除了收录TCGA,也收录了TARGET数据库的数据,因此在数据选择时,只选择下方GDC TCGA为前缀开头的那些癌症数据集即可。


下面就进入数据的下载:

首先,假如你只需要下载单个癌症的某个组学数据,我们这里以BRCA(乳腺癌)基因表达量数据为例,直接点击GDC TCGA Breast Cancer (BRCA)


然后就会进入到BRCA的数据总览页,不同类型的组学数据,如拷贝数、DNA甲基化、基因表达量、临床信息、SNP等,都一目了然,不同类型的组学数据的不同处理方式也都罗列在对应的条目下,根据需要点击即可。这里我们直接点击gene expression下的HTSeq-Counts



然后进入到BRCA的基因表达量数据页,在download处点击下载链接,即可下载到BRCA的基因表达量矩阵。


点开刚刚下载的counts文件查看:


这不就是咱们前两期辛辛苦苦最后整理出来的东西么?

上述就是单个癌症某个数据的下载方法,其它数据也是一样的,选择需要的、点击下载链接即可。

这里可能会出现两个问题:
    1. 网速很差。比如下载这个BRCA的基因表达量矩阵,压缩包是132MB,普通下载可能会慢如蜗牛,即使你睡觉挂个机,也可能一早起床发现最终以下载失败/中断为结局。
    2. 批量下载大量数据采用此方法就非常繁琐,挨个点点点显然不是很科学,加上网速慢更是要命。那参考各大教程使用shell命令做一个批量下载吧,没shell基础咋办?

前面所说曲线救国方法就是掏出一个下载软件,其名曰——迅雷!不知道大家还有没有印象,在没有智能手机的时代,小编小时候经常拿它来下电影动漫啥的放进MP4带去学校偷偷看。


打开迅雷,点击新建,会弹出一个添加链接或口令,在这里输入下载链接即可,如果要批量下载,就每行放一个下载链接。


是不是感觉get到了?这里的下载链接,就是指我们在上文中下载数据需要点击的那串字符。现在重新观察Xena的下载链接组合方式(左右滑动查看):
不同癌症的基因表达量矩阵下载链接:
https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-BRCA.htseq_counts.tsv.gz
https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-LAML.htseq_counts.tsv.gz
https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-UCEC.htseq_counts.tsv.gz

不同癌症的临床信息下载链接:
https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-UCEC.GDC_phenotype.tsv.gz
https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-LAML.GDC_phenotype.tsv.gz
https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-BRCA.GDC_phenotype.tsv.gz

想必聪明的你已经发现,同一类组学数据的下载链接的不同点,就只有癌症名的不同。现在TCGA有的33种癌症缩写我们已经知道,不同组学数据的链接只要点进一条就能获取,剩下的就是把链接中的癌症名进行替换,使用迅雷的批量下载功能下载即可。

附上TCGA中33类癌症的英文缩写和中文对照:
ACC 腺样囊性癌
BLCA 膀胱癌
BRCA 乳腺癌
CESC 宫颈癌
CHOL 胆癌
COAD 结肠癌
DLBC 淋巴癌
ESCA 食管癌
GBM 多形性成胶质细胞瘤
HNSC 头颈部鳞癌
KICH 嫌色细胞癌
KIRC 肾透明细胞癌
KIRP 乳头状肾细胞癌
LAML 骨髓癌
LGG 脑低级别胶质瘤
LIHC 肝癌
LUAD 肺腺癌
LUSC 肺鳞状细胞癌
MESO 胸膜癌
OV 卵巢癌
PAAD 胰腺癌
PCPG 肾上腺癌
PRAD 前列腺癌
READ 直肠癌
SARC 软组织癌
SKCM 皮肤癌
STAD 胃癌
TGCT 睾丸癌
THCA 甲状腺癌
THYM 胸腺癌
UCEC 子宫内膜癌
UCS 子宫癌
UVM 眼癌

可以将批量下载链接准备好后直接复制进迅雷,点击确定即可。亲测迅雷下载真的迅速如雷,不用开会员也非常给力!


通过这样的方式,我们就能批量获取所需要的癌症组学数据啦~


PS:
此外还需要强调,在Xena中的部分组学数据是经过一定处理的,以RNA-seq的counts为例,在GDC官方所下载的为未经处理的原始counts,而在Xena所下载的同类counts数据是经过了Log2处理的,大家下载时要看清楚。


此外关于Xena中数据是否为最新,小编比较了两种方式所下载的几个数据集,发现样本数量确实是一致的,但是也不敢保证所有数据都能和GDC的更新完全同步。

大家需要自己斟酌,Xena能够非常便捷获取数据,但是否最新有待商榷。通过GDC官方能够保证获取最新最权威数据,但获取过程较为繁琐。

今天的分享就到这里啦~


本文作者:基迪奥-喵酱

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
新的一天加油!
回复

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
31
注册时间
2016.1.8
在线时间
556 小时

发表于 2022.1.4 15:44:26 | 显示全部楼层
很不错呢,酷
新的一天加油!
回复 支持 反对

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
31
注册时间
2016.1.8
在线时间
556 小时

发表于 2022.1.4 16:47:14 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
0
注册时间
2017.6.6
在线时间
148 小时

灌水之王


发表于 2022.1.7 08:15:57 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
0
注册时间
2017.11.3
在线时间
234 小时

发表于 5 天前 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2022.1.10
在线时间
2 小时

发表于 半小时前 | 显示全部楼层
{:6_313:}{:6_313:}
新的一天加油!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表