NCBI测序原始数据上传

具体操作可以参照这篇博客,这里只补充几点。

1、申请登录号顺序

建议首先申请Biosample号,再申请BioProject号,最后申请SRA号。在第二步的过程中只需要填写第一个Biosample号就可以了。也可以先申请BioProject号,Biosample号先空着,再申请Biosample号,然后在填表中”bioproject_accession”填上申请的BioProject号就可以了。

2、填表的疑问

遇到最多的问题就是sample_name通不过,按照参考中的方法在最后添加一列“replicate”,然后填上对应的replicate描述就可以了。在填写“collection_date”时也应注意要使用标准日期格式,如“2021-07-01”,不能把月份和日期前面的0省略。“geo_loc_name”这栏填写上传样品基因型的位置,国家要采用标准的国家名称,后面跟冒号和省份,也可以不加。

在填写”SRA_metadata_acc”表时,”library_ID”可以自己编一个,不能重复,”title” 填写样品描述信息,可以采用如以下格式“RNA-Seq of organism: cultivar tissue”,“design_description”可以填写实验设计时的信息,如”control,replication 1″,”Treatment,replication 1″。

3、测序原始数据上传

建议使用Aspera上传,特别是数据量比较大时。可以参考这篇文章的方法,不过需要特别注意的最好上传文件夹,里面包含了所有需要上传的测序文件,不然是上传到根目录了,不能显示,费半天劲白传了。可以参考我的这个代码。”samples_dir”为包含测序文件的文件夹,“root_link”为NCBI提供的链接,点“Aspera Command-Line upload”右边的加号就会出现,一般是邮箱加密钥。一般是上传完成后10分钟才会看到结果。

nohup ~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -QT -l100m -k1 -d ~/data/transcriptome/samples/fleshed/samples_dir subasp@upload.ncbi.nlm.nih.gov:uploads/root_link &

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注