查看: 25871|回复: 13

[其他] NCBI数据上传攻略

  [复制链接]

超级版主

Rank: 12Rank: 12Rank: 12

主题
18
注册时间
2016.3.11
在线时间
172 小时

突出贡献优秀版主荣誉管理


发表于 2016.5.9 18:59:26 | 显示全部楼层 |阅读模式
本帖最后由 Eric_Young 于 2016.5.16 22:01 编辑

NCBI数据上传攻略
(一)——NCBI上传数据类型及前期准备工作


近些年来,随着高通量测序技术的迅猛发展,越来越来越多地科研工作者开始将这一高效的科研工具应用到相应的科学研究项目中。而伴随着高通量测序技术的广泛应用,海量的测序数据也随之产生。对于这些测序数据的管理以及全世界科研人员的共享,NCBI无疑是一个非常好的平台。所以,通常科研工作者在文章发表的同时,都是需要将数据提交到一个公共平台(例如NCBI),并获得一个登入号。

然而,如何向NCBI提交数据,不同类型的测序项目是否要提交不同的数据?这一系列的数据提交问题则成为了科研工作者不得不面对的一个棘手难题。对于不同类型的测序项目分别进行NCBI数据提交的讲解,希望能为科研工作者提供一些帮助。

一、提交数据分类

NCBI对于可提交的数据类型有详细的列表,不同的类型的数据分别提交到不同的数据库,具体可以查看http://www.ncbi.nlm.nih.gov/guide/howto/submit-sequence-data/
      

洋洋洒洒一大堆,是不是有点眼花缭乱啊?
没关系,小编给做个简单的归纳总机,让你一目了然。(不要太爱我喔~)


首先,我们就数据类型而言,可以将上传的数据大体归为两大类:测序数据以及分析数据。

1、测序数据顾名思义就是指测序得到的数据,一般而言分为二代和三代测序数据。二代测序中最常见的是illumina测序仪产生的fastq文件,454测序仪产生的sff文件等。三代测序数据则主要是指pacbio测序仪产生的4个文件:3个bax.h5文件和1个bas.h5文件。这些文件需要提交到NCBI的SRA数据库,具体提交方法我们将在之后的文章中做详细介绍。

2、因为测序平台应用在不同类型的项目中会有不同的分析结果,所以分析数据的提交要根据测序项目类型来定。目前的高通量测序就项目类型而言可大体分为:基因组测序、转录组测序、16S/ITS测序,宏基因组测序等。后期我们将对不同类型项目分析结果的提交分别做详细介绍。
      


      


各个提交数据库简单介绍

1、GenBank
网址:http://www.ncbi.nlm.nih.gov/genbank/
GenBank是美国国立卫生研究院(NIH)基因序列数据库,包含所有公开的DNA序列和注释信息。每天都与DDBJ和EMBL进行数据交换。序列信息多为提交者提供。

2、SRA
网址:http://www.ncbi.nlm.nih.gov/sra/
存储测序平台产生的测序数据。包括Roche 454 GS System®, Illumina Genome Analyzer®, Applied Biosystems SOLiD® System, Helicos Heliscope®, Complete Genomics®, and Pacific Biosciences SMRT®。

3、Transcriptome Shotgun Assembly (TSA)
网址:http://www.ncbi.nlm.nih.gov/genbank/tsa/
存储由第二代测序数据组装拼接得到的转录本序列。

二、数据提交前期准备工作

无论提交什么类型的数据,都要先做好相同的前期准备工作。

1、建立一个属于自己的NCBI的登陆账户,用以提交数据。如何创建My NCBI账户详细请参见:http://www.ncbi.nlm.nih.gov/book ... tering_with_My_NCBI
      


2、为提交的数据申请BioProject和BioSample号。一个BioProject代表一项测序研究项目,它可包含多次实验(experiments)。研究记录是学术期刊文章的一个很好的参考,因为已发表的BioProject为用户寻找和下载数据提供了良好的界面。

Step1:打开https://submit.ncbi.nlm.nih.gov/,点击“BioProject”进入新建页面。
Step2:点击“New submission”,进行提交。
Step3:根据研究项目实际情况,填写一系列的信息,每填写完一个步骤,都要点击页面下方的continue,保存已填写的信息。

注意:到下图所示这一步的时候,如果您只有一个样品,可以点击“register at Biosample”进行样品注册,样品注册完成后会自动调回BioProject注册界面。但是如果您有多个样品,可以直接点击“Continue”,完成了BioProject注册后再进行BioSample注册。可以在https://submit.ncbi.nlm.nih.gov/点击“BioSample”进行多个样品的注册。
      


Step4:最后,确认没有问题后点击Submit,新建BioProject成功。
      



经过以上步骤,获得BioProject ID。
      


好了,准备工作就做好了,是不是很简单啊。

接下来我们就需要根据不同的项目情况上传不同类型的数据了。


NCBI数据上传(二)——测序数据上传(二代和三代)

建立了属于自己的NCBI账户,以及为提交数据申请了BioProject和BioSample,下面将介绍如何将二代测序数据和三代测序数据上传到NCBI的SRA数据库。步骤如下:

一、准备工作:
在开始上传测序数据之前,还有几个准备工作需要做。我们需要获得测序数据的MD5 checksum和下载上传数据的工具(Aspera或者FileZilla)。

二、数据提交流程:
将数据上传NCBI有两种方法,下面我们先介绍第一种:
Step1:我们需要在NCBI网站上登陆自己的账户,进入数据提交的Submit界面后(https://submit.ncbi.nlm.nih.gov/),点击进入SRA界面
      


选择NCBI PDA
      


Step2:填写个人相应的信息,保存之后,点击Creat new submission,创建相应的提交数据任务,然后填写submission相应信息,包括Alias、Release data等,填写好之后点击保存,为自己的数据创建相应的Experiment,如下图:
      


      


      



Step3:填写Experiment的有关信息,包括Platform、Alias、Title、BioProject accession、BioSample accession等,点击保存,并点击back,返回之前的页面,如下图:
      


Step4:为Experiment创建Run,可根据个人实验不同的情况,创建多个Run,填写Run的相应信息,包括Alias、Run data file type,这里我们可选择测序数据的类型,比如三代测序的PacBio_HDF5,二代测序的fastq,接下去填写相应数据的文件名和MD5 checksum,如下图:
      


注意:上传数据不支持 .zip 和.rar的压缩文件,一般建议使用.gz 和.bz2、.tar格式的压缩文件。

Step5:接下来是最后一个步骤,上传数据,NCBI提供了相应的网址链接、账号、密码,我们可以直接通过FileZilla登陆NCBI,上传数据。

接下来我们介绍第二种数据上传的方法:

Step1:在NCBI网站上登陆自己的账户,进入Submit界面,点击进入Your Submissions界面(https://submit.ncbi.nlm.nih.gov/subs/),选择Sequence Read Archive,点击New submission,为上传数据创建新的submission,如下图:
      


      


Step2:填写个人相应的信息,点击Continue进入下一页面,填写之前创建的BioProject accession和BioSample accession,选择释放数据时间,点击Continue进入下一页面,如下图:
      


Step3:下载表格,填写上传数据的相应信息后,上传表格,点击Continue进入下一页面
      


Step4:选择数据上传方法后,上传数据后提交
      


注意:上传文件支持tar、tar.gz、tgz、tar.bz2、tbz2、gz等格式。
以上就是上传二代测序数据和三代测序数据的两种方法,如果在上传数据过程中遇到难以解决的问题可以向SRA的工作人员寻求帮助(sra@ncbi.nlm.nih.gov)。

备注:本文转载自http://seq.cn/forum.php?mod=viewthread&tid=5416792                           http://seq.cn/forum.php?mod=viewthread&tid=5416859







本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

评分

参与人数 1奥币 +20 贡献 +10 收起 理由
小圆 + 20 + 10 很普遍的问题!

查看全部评分

哈哈
回复

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
19
注册时间
2016.4.26
在线时间
269 小时

发表于 2016.5.10 12:49:20 | 显示全部楼层
收藏一下!
新的一天加油!
回复

使用道具 举报

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
126
注册时间
2015.11.12
在线时间
791 小时

推广达人宣传达人论坛元老


发表于 2016.5.10 17:35:06 | 显示全部楼层
很好的内容,楼主你的图片还没补全啊喂
哈啊哈哈
回复 支持 反对

使用道具 举报

版主

Rank: 10Rank: 10Rank: 10

主题
10
注册时间
2016.1.14
在线时间
409 小时

突出贡献论坛元老


发表于 2016.5.11 12:13:40 | 显示全部楼层
先收藏,后面会有大用处的,谢谢楼主了
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
4
注册时间
2016.4.10
在线时间
99 小时

发表于 2016.5.16 17:29:18 | 显示全部楼层
好东西,顶起~~~~~~~
回复 支持 反对

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
23
注册时间
2015.12.29
在线时间
181 小时

最佳新人突出贡献论坛元老


发表于 2016.5.16 22:02:19 | 显示全部楼层
小圆 发表于 2016.5.10 17:35
很好的内容,楼主你的图片还没补全啊喂

我给他补上了~
回复 支持 反对

使用道具 举报

功夫熊猫

Rank: 10Rank: 10Rank: 10

主题
1
注册时间
2016.4.25
在线时间
797 小时

灌水之王


发表于 2016.5.17 09:09:21 来自手机 | 显示全部楼层
学习了,好像还没上传过
回复 支持 反对

使用道具 举报

超级版主

Rank: 12Rank: 12Rank: 12

主题
18
注册时间
2016.3.11
在线时间
172 小时

突出贡献优秀版主荣誉管理


 楼主| 发表于 2016.5.17 15:54:51 | 显示全部楼层

多谢
哈哈
回复 支持 反对

使用道具 举报

草履虫

Rank: 2

主题
0
注册时间
2016.5.17
在线时间
0 小时

发表于 2016.5.17 17:01:31 | 显示全部楼层
很不错,对我很有帮助
回复 支持 反对

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
10
注册时间
2016.4.7
在线时间
216 小时

活跃会员突出贡献论坛元老


发表于 2016.5.17 22:08:17 来自手机 | 显示全部楼层
收藏备用,谢谢分享
回复 支持 反对

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
7
注册时间
2016.4.8
在线时间
392 小时

最佳新人


发表于 2016.6.9 16:25:46 | 显示全部楼层
有帮助
签到
回复

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
3
注册时间
2016.8.18
在线时间
301 小时

发表于 2016.9.20 14:08:00 | 显示全部楼层
大哥发的东西就是挺牛的,收藏了
啦啦啦
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2016.6.8
在线时间
15 小时

发表于 2018.4.18 19:40:21 | 显示全部楼层
收藏一下,以前只会上传基因组序列。现在可以学一下其他啦
回复 支持 反对

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2019.8.6
在线时间
5 小时

发表于 2020.4.10 00:35:40 | 显示全部楼层
在用 Aspera Command-Line上传数据的时候出错了显示ascp.exe: Cannot resolve target host Startup failed, exit
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表