Aspera从NCBI下载数据

如果要从NCBI下载大数据，单纯用FTP下载工具根本不够用了，还在NCBI提供了一款下载神器Aspera，试着用了一下，效果非常好，我6M的宽带速度可以达到5M/s，现简要介绍一下使用方法和遇到的问题。
1、下载
下载地址为：http://downloads.asperasoft.com/en/downloads/8?list
先点击操作系统的图标，在下拉框中就出现了相应的操作系统，再点下拉框右边那个小三角形，选择要下载的版本，然后点左边的”Download”图标就可以下载了。这个设计的真心有问题，反正我点了操作系统后，怎么也没找到下载的图标，后面还是不经意间点了那个下拉框后才出现。
2、安装
Windowns下直接双击下载的文件，linux下运行“ sh aspera-connect-xx-linux-64.sh ”，安装完成后在当前目录会找不到安装文件，其实是安装在当前用户的根目录下了，linux安装文件为隐藏文件“/home/用户/.aspera/”。windows中会出现在开始菜单里，具体的配置可以参考“ http://boyun.sh.cn/bio/?p=1933 ”的介绍。
3、使用
如果是批量下载，将要下载的文件链接存入一个文件，例如我要下载所有植物参考蛋白数据，先在NCBI FTP中找到所在目录，将要下载的文件路径存入文件plant_protein_seq_file_list.txt，格式如下/refseq/release/plant/plant.1.protein.faa.gz，每个文件一行，然后运行

/home/用户/.aspera/connect/bin/ascp -k 1 -QT -l 100M  -i /home/用户/.aspera/connect/etc/asperaweb_id_dsa.openssh --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp   --file-list plant_protein_seq_file_list.txt   ./

具体各参数的意思可以运行/home/用户/.aspera/connect/bin/ascp –help查看软件自带的说明。
备注：
（1）将“用户”换成当前使用的用户名。
（2）如果使用asperaweb_id_dsa.putty会出现要输入密码的情况，建议换成asperaweb_id_dsa.openssh，反正我找了半天都没有找到密码。
（3）“./”表示的是下载的输出目录为当前目录，也可以换成其它的目录。
如果是单独下载一个文件，运行

/home/用户/.aspera/connect/bin/ascp -k 1 -QT -l 100M -i /home/用户/.aspera/connect/etc/asperaweb_id_dsa.openssh -T anonftp@ftp-private.ncbi.nlm.nih.gov:/refseq/release/plant/plant.1.protein.faa.gz ./

。

生信摆渡人

渡人，渡心，渡已

发表回复取消回复

发表回复 取消回复

发表回复取消回复