查看: 998|回复: 0

“我的数据上传NCBI又报错了...” “攻略拿去!”

[复制链接]

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
20
注册时间
2019.5.6
在线时间
138 小时

发表于 2020.6.8 10:03:24 | 显示全部楼层 |阅读模式
在上一期的内容中,我们分享了NCBI测序数据上传的主要步骤和资料填写的注意事项。今天跟大家分享最后一步:原始测序数据的上传以及上传后项目编号的相关类型和含义。

图1  NCBI测序数据上传步骤

一、原始测序数据上传

完成样本属性和样本测序建库相关信息的填写后,下一步(第7步)即为测序数据上传。当然,如果测序数据量比较大,也可以在申请账号后就开始数据预上传,然后在第7步选择对应文档就可以。预上传和第7步的上传方法一样(图2、图3)。

预上传界面:登录后 → my submissions → Options to preload data。

图2 预上传界面

图3 第7步上传界面

Aspera和FTP都是远程传递大数据量的软件。通过软件将本地地址与远程地址相连,进行文件的高速传输。

我们以Aspera浏览器、Aspera命令行、FTP 3种形式为例介绍三种上传方法,Aspera命令行看起来是代码形式,比较复杂,但其实命令很简单,上传非常快而且稳定,大文件推荐使用Aspera命令行模式。

软件安装

1. Aspera软件安装


Tips:选择“典型安装”模式,避免无法自动弹窗显示。

2. FTP安装


方法一 Aspera浏览器

安装成功后,进入 “步骤7”,出现弹框,询问是否启用IBM Aspera,选择“打开”(图4);选择第一项,点击“选择文件”,弹框后,选择“允许”,选择对应文档,即进入上传界面(图5)。

图4 启用Aspera

图5 Aspera浏览器上传

Tips:如果将不同样本的序列文件压缩成一个文档,选择continue会出现warning(图6),提示找不到第6步meta data表格中的文档名,再次点击continue,NCBI会自动解压并核对文档。

图6 如有多个序列文件压缩,会提示warning界面

Tips:此步上传的序列文档名需要与metadata表格填写的filename完全一致,且文档数量也要一致。

方法二 Aspera命令行模式

在预上传界面打开命令行的上传说明,或者在第7步勾选命令行选项。

1. 下载aspera.openssh,记录NCBI数据接收地址,即上传者专属路径(图7)。

图7 账户对应的专属路径和密钥界面

2. 查找记录aspera.openssh和ascp.exe两个文档的存储路径,添加两个“环境变量”:ASPERA_SCP_PASS 和Path(图8)。

图8 添加环境变量

操作如下:我的电脑 → 鼠标右键→ 属性 → 高级系统设置 →环境变量 → 新建 →“变量”输入“ASPERA_SCP_PASS”,“值”输入“路径/aspera.openssh”; 新建 →“变量”输入“Path”,“值”输入“路径/ascp.exe” → 确定。

3. 进入命令行模式:

Windows + R → 输入cmd → 确定 → 打开命令提示符

4. 输入命令:

(1)命令构成(各成分以空格相连):
①"路径\ascp.exe"
②-i "路径\aspera.openssh"  
③上传参数
④"数据存放路径"
⑤NCBI接收地址

(2)命令示例:
①"C:\Users\Administrator\AppData\Local\Programs\Aspera\AsperaConnect\bin\ascp.exe"  
②-i "D:\aspera.openssh"
③-QT -l100m -k1 -d
④"D:\raw data"
subasp@upload.ncbi.nlm.nih.gov:uploads/fish5691@qq.com_JexlxJIL

Tips:-l100m,表示设定的最大上传速度。

Tips:-d表示打开本地路径,建议先将所有待上传的测序数据放在一个文件夹内,再输入命令行,即可上传该文件夹内所有文档。

如图9,输入命令后回车,界面会显示读取的文档列表、上传进度、文件大小、速度和耗时。完成后会给出Completed说明。

图9 Asper命令行上传界面(当前速度每秒约9.4M)

5. 上传完成后,回到NCBI界面,点击刷新,选择文档。

Tips:一般上传完成后,需要等待大约10min,NCBI网页才会同步上传完成。

方法三 FTP上传

在预上传界面打开FTP的上传说明,或者在第7步勾选FTP选项。

1. 按图10,记录红框中的相关信息。

图10 FTP上传提示

2. 打开软件,本地站点打开对应文件夹(图11)。

图11  FTP上传文档选择

3. 建立连接(图12),输入对应主机(Address),用户名(Username),密码(Password)。

图12 与NCBI建立连接

4. 输入远程站点分配的目录位置,enter键进入上传目录(图13)。

图13 远程连接

5. 在左边的“本地站点”找到要上传的文件夹,点击鼠标右键,点“上传”,页面下边则会有文件在上传的队列中。上传完成后,回到NCBI界面刷新。

二、Overview 总览

上传完成后可检查所有信息,确认无误后提交。

跳转至my submission,显示已提交,等待处理。大约10分钟后,Bioproject和Biosample一般会先处理完成,然后SRA待处理(图14)。1-2天后,SRA处理完成,即可获得样本和项目的SRA编号。

图14 上传进程查看

由于整个过程涉及到的编号非常多,所以我们进行了对比汇总,其中红色编号表示可以用在文章中作为检索测序数据的编号(图15)。

图15 NCBI上传编号说明

以上就是原始测序数据上传至NCBI的SRA数据库的所有操作指南,希望能帮助大家在数据上传时少走一些坑,让数据上传之路畅通无阻~


本文作者:基迪奥-小鱼儿


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

本帖被以下淘专辑推荐:

周五啦!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表