查看: 812|回复: 10

[其他] 带你轻松搞定GSA数据上传,攻略拿去~

[复制链接]

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
461
注册时间
2020.6.16
在线时间
304 小时

发表于 2021.12.18 10:06:27 | 显示全部楼层 |阅读模式
在上一期的内容中,我们分享了测序数据上传GSA数据库的主要步骤和资料填写的注意事项(详见《GSA,一个强烈推荐的数据存储平台》)。今天跟大家分享最后一步:原始测序数据的上传以及上传后项目编号的相关类型和含义。

图1 数据提交步骤总览

原始测序数据上传

完成基本信息和元数据信息填写后,下一步(第4步)即为测序数据上传。

文件上传方式有三种:① FTP站点上传;② Aspera命令行上传;③ 网页端Aspera插件上传。

图2 上传数据界面

FTP和Aspera都是远程传递大数据量的软件。通过软件将本地地址与远程上传地址相连,进行文件的高速传输,对于大样本量上传非常友好,上传速度起飞。因此,我们以FTP、Aspera命令行(首推)两种形式为例介绍上传方法。Aspera命令行看起来是代码形式,比较复杂,但其实命令很简单,上传快而稳定,大文件推荐使用Aspera命令行模式。

# 软件安装

    1. FTP(FileZilla软件)安装
下载地址:https://filezilla-project.org/download.php?type=client

    2. Aspera安装
下载地址:https://downloads.asperasoft.com/connect2/

Tips
选择“典型安装”模式,避免无法自动弹窗显示。

方法1  FTP上传

① 在第4步勾选FTP选项,并记录FTP上传提示(图3)。

图3 FTP上传提示

建立连接。打开软件,填写主机信息为“submit.big.ac.cn”,用户名和密码与GSA数据库的登陆帐号邮箱和密码一致。点击“快速连接”,状态栏显示登陆成功。

图4 FTP客户端界面

进入上传目录。登录成功后,“本地站点”选择需要上传数据对应的本地路径,“远程站点”中,点击GSA文件夹,进入GSA目录

图5 FTP客户端上传界面

Tips
进入GSA目录并把文件上传到该目录下。不要把文件上传到根目录下,这样后台处理程序将扫描不到上传的文件。

上传数据。在“本地站点”中找到需上传的数据文件夹,鼠标右键,选择“上传”,也可直接拖拽到“远程站点”进行上传。页面下方会显示文件在上传队列。远程站点的目录中出现相应的数据,表明数据传输成功。

图6 FTP上传文档选择

Tips
上传数据至GSA目录中,推荐每批数据建一个子目录,再把左侧数据选中后右键上传或拖入右侧。

方法2 Aspera命令行上传(推荐)

在第4步勾选Aspera命令行上传。

下载aspsub_rsa即“Get the key file”,并记录GSA数据接收地址,即上传者专属路径(图7)。

图7 账户对应的专属路径和密钥(key file)界面

Tips
“key file”为数据接收关键。建议将下载的key file存放在文件层级较少的路径中,以便写命令更加简洁。如“D:/aspsub_rsa”。

准备好上传数据。建议将需要上传的原始数据存放在一个文件夹中,以便后续写命令简洁且不易出错,即可上传该文件夹内所有文档。如“D:/raw data”。

图8 记录数据存放路径

③ 查找并记录ascp.exe应用程序(Aspera软件)存储路径

不同操作系统,默认下载ascp后存放路径不同,如:

Windows(图11):C:\Users\[username]\AppData\Local\Programs\Aspera\AsperaConnect\bin\ascp.exe或C:\Program Files\Aspera\Aspera Connect\bin\ascp.exe;

Mac OS X:/Applications/Aspera/Connect.app/Contents/Resources/ascp(admin 用户安装)或:/Users/[username]/Applications/Aspera/Connect.app/Contents/Resources/ascp(非admin用户安装);

Linux:/opt/aspera/bin/ascp or /home/[username]/aspera/connect/bin/ascp

图9 Windows系统ascp.exe存放路径

④ 进入命令模式,并根据提示输入命令。
  • Windows+R→输入cmd→确定→打开命令提示符
  • Aspera命令行输入:

命令构成:“路径/ascp.exe” -P33001 -i “路径/key file” -QT -l100m -k1 -d “路径/数据存放地址” “上传者专属路径”。

图10 Aspera命令行上传提示

命令示例如下(橙色部分按照自己的实际路径修改),上传后出现Completed表明上传完成:

"C:\Users\[username]\AppData\Local\Programs\Aspera\Aspera Connect\bin\ascp.exe" -P33001 -i "D:\aspsub_rsa" -QT -l100m -k1 -d "D:\raw data"
aspsub@submit.big.ac.cn:uploads/suchang@nwafu.edu.cn_1ab77ca3

图 11 Aspera命令行上传界面

Tips
-i:表示与key file连接;-l100m,表示设定的最大上传速度;-d,表示打开本地路径。

协助上传

对需上传大量数据的用户(>1 TB),GSA充分考虑到大样本量数据递交用户的需求,开启硬盘寄送和协助上传的绿色通道,非常友好。

网盘寄送:联系GSA工作组,填写“PRJCA[请写上编号]-硬盘填写信息文档”,电子版发送至工作组邮箱gsa@big.ac.cn,寄送到GSA;

同网大型机协助拷取:如果数据存储在基因组所大型机上,可以联系GSA工作人员协助拷取。

概览&提交

上传完成后可对信息再次检查,确认无误后提交。同样,点击进入相应页面可进行信息修改。


完成GSA数据库上传后,系统将自动生成GSA编号(GSA Accession number)。通常状况下,数据信息与文件审核归档需要1-2天(数据量越大可能相应所需时间越长)。归档成功后会收到一封通知邮件,并可在GSA列表中查找分配的GSA编号(下图为归档成功后GSA官网提供示例)。

图12 GSA上传记录

Tips
① GSA提交编号(sub#):仅在联系GSA工作人员使用,不要在BIG Search检索信息时或文章中提交此编号。② GSA编号(CRA#):在BIG Search检索信息时或文章中使用的GSA编号。

由于整个过程涉及到编号略多,我们也进行了比对汇总,其中红色的编号可以用在文章中,作为检索测序数据的编号。

表1 GSA上传编号说明

以上就是原始测序数据上传GSA数据库的实操过程。接下来给大家分享提交数据之后怎样对GSA数据集进行修改、删除和追加,想要提前发布与分享GSA数据集的攻略!

GSA数据集提交信息更改

提交上传数据之后,若仍需对数据信息进行修改,别担心,GSA贴心提供数据上传后修改服务,可自主对数据信息进行修改、删除和追加,以及对释放日期进行修改,也可自主生成分享链接(临时)提供给审稿人查看数据。

*附:补充信息(以下信息与图片引用自GSA官方文档)

#1 GSA数据集修改、删除和追加

1) 在GSA数据集文件归档完成之前,无论数据信息是否通过审核,用户同样可通过点击“提交编号”进入样本总览界面:
①更新GSA基本信息(Basic Information)中的标题(Title)和发布日期(Release date);
②修改提交者信息(Submitter information);
③使用“追加数据(Add Data)”键;
④修改或删除已提交实验(Experiment)和测序反应(Run)基本信息;
⑤使用“更新文件(Update File)” 键,补充和更新数据文件(推荐Aspera Connect浏览器插件上传文件用户使用)。

附图1 GSA归档前修改界面

2) 在GSA数据集文件归档完成之后(提交状态为check OK;confidential),用户同样可通过点击“提交编号”进入样本总览界面:
①更新GSA基本信息(Basic Information)中的标题(Title)和发布日期(Release date);
②修改提交者信息(Submitter information);
③使用“追加数据(Add Data)”键;
④使用“更新文件(Update File)”键,补充和更新数据文件(推荐Aspera Connect浏览器插件上传文件用户使用)。如果您还希望修改或删除已提交实验(Experiment)和测序反应(Run)基本信息,可通过gsa@big.ac.cn邮箱联系数据库工作组。

附图2 GSA归档完成后修改界面

#2 GSA数据集发布信息更改

如果因文章提前发表等原因,需要提前发布GSA数据集,可点击下图列表中“立即发布(Release Now)”,完成提前释放。

附图3 GSA提前释放数据

Tips
①当GSA数据集发布后,所有与其关联的BioProject和BioSample(s)将同时发布。
②GSA数据释放后,需要几个小时归档数据。等数据归档成功后,即可在BIG Search中通过GSA序列号(Accession number)搜索到数据集以及相关BioProject和BioSample(s)信息。

#3 GSA数据集分享链接生成

用户通过账号登陆BIG Sub系统,在GSA提交系统列表中,操作(Operation)→分享→生成分享链接,复制该链接并提供给编审,即可查看数据。

附图4 生成分享链接

Tips
此链接为临时链接,用户可以将该链接分享给编辑和审稿人,方便其查看数据,但为了数据安全请不要将此链接对外公布。数据共享结束后,请点击“Cancel share”,取消数据共享。

上传数据的攻略已经分享给你们了,希望帮助大家在数据上传时避免一些问题,让数据上传之路畅通无阻。


本文作者:基迪奥-十二、潇潇

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
新的一天加油!
回复

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
0
注册时间
2020.2.12
在线时间
81 小时

发表于 2021.12.18 11:42:56 | 显示全部楼层
6666666666666666666
新的一天加油!
回复 支持 反对

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
0
注册时间
2020.11.21
在线时间
76 小时

发表于 2021.12.18 22:02:28 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
0
注册时间
2020.11.21
在线时间
76 小时

发表于 2021.12.19 21:55:50 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

帝王蝶

Rank: 4

主题
0
注册时间
2019.3.26
在线时间
7 小时

发表于 2021.12.19 22:54:49 | 显示全部楼层
666666666666
新的一天加油!
回复 支持 反对

使用道具 举报

功夫熊猫

Rank: 10Rank: 10Rank: 10

主题
3
注册时间
2017.9.8
在线时间
79 小时

发表于 2021.12.20 08:12:10 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

功夫熊猫

Rank: 10Rank: 10Rank: 10

主题
3
注册时间
2017.9.8
在线时间
79 小时

发表于 2021.12.21 08:06:53 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
31
注册时间
2016.1.8
在线时间
556 小时

发表于 2021.12.21 09:51:46 | 显示全部楼层
如此好贴,必须
新的一天加油!
回复 支持 反对

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
0
注册时间
2020.11.21
在线时间
76 小时

发表于 2021.12.21 10:35:54 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

功夫熊猫

Rank: 10Rank: 10Rank: 10

主题
3
注册时间
2017.9.8
在线时间
79 小时

发表于 2021.12.22 08:08:57 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

迅猛龙

Rank: 8Rank: 8

主题
0
注册时间
2017.6.6
在线时间
148 小时

灌水之王


发表于 2021.12.22 08:30:30 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表