NCBI测序原始数据上传

具体操作可以参照这篇博客,这里只补充几点。

1、申请登录号顺序

建议首先申请Biosample号,再申请BioProject号,最后申请SRA号。在第二步的过程中只需要填写第一个Biosample号就可以了。也可以先申请BioProject号,Biosample号先空着,再申请Biosample号,然后在填表中”bioproject_accession”填上申请的BioProject号就可以了。

2、填表的疑问

遇到最多的问题就是sample_name通不过,按照参考中的方法在最后添加一列“replicate”,然后填上对应的replicate描述就可以了。在填写“collection_date”时也应注意要使用标准日期格式,如“2021-07-01”,不能把月份和日期前面的0省略。“geo_loc_name”这栏填写上传样品基因型的位置,国家要采用标准的国家名称,后面跟冒号和省份,也可以不加。

在填写”SRA_metadata_acc”表时,”library_ID”可以自己编一个,不能重复,”title” 填写样品描述信息,可以采用如以下格式“RNA-Seq of organism: cultivar tissue”,“design_description”可以填写实验设计时的信息,如”control,replication 1″,”Treatment,replication 1″。

3、测序原始数据上传

建议使用Aspera上传,特别是数据量比较大时。可以参考这篇文章的方法,不过需要特别注意的最好上传文件夹,里面包含了所有需要上传的测序文件,不然是上传到根目录了,不能显示,费半天劲白传了。可以参考我的这个代码。”samples_dir”为包含测序文件的文件夹,“root_link”为NCBI提供的链接,点“Aspera Command-Line upload”右边的加号就会出现,一般是邮箱加密钥。一般是上传完成后10分钟才会看到结果。

nohup ~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -QT -l100m -k1 -d ~/data/transcriptome/samples/fleshed/samples_dir subasp@upload.ncbi.nlm.nih.gov:uploads/root_link &

Galaxy介绍

galaxy是一个很好的生信云平台,云平台也是今后的趋势,毕竟在本地安装各种各样的软件实在是太折腾人了。网址:https://usegalaxy.org/ 。 如果想用的话可以看官方操作说明。简单的操作可以看这篇博客。

admixture的安装

由于admixture软件下载(http://software.genetics.ucla.edu/admixture/download.html )地址打不开了,所以admixture无法从原网址下,尝试使用了

conda install admixture

还是不行,最后想到admixture是生物信息软件,应该用专用的生物类的conda下载,试了下,果然OK。

conda install -c bioconda admixture

SnpEff安装和使用中的问题

SnpEff 软件通过基因组序列和注释文件对VCF文件中的SNP/InDel信息进行注释的软件,即主要解释了SNP/InDel是否能够对编码蛋白基因造成影响。关于snpEff使用和安装的文章很多了(如SnpEff使用方法SnpEFF注释vcf-笔记),我这里就不再列出了,主要晒晒我在安装和使用过程中踩过的坑。

一、版本下载的问题。在这个页面有所有snpEff的版本,第一次我下了排在最前面的snpEff_v4_5covid19_core.zip,后面在安装数据库时,发现所有常见物种的数据库都安装不了,后面看到这个包的前缀才知道是covid19版本的,只有covid19的库,想重新下一个,怎奈下载速度实在是太慢,只能放弃了。用这个版本自建了个库,发现可以用。所以下载包时要注意。

二、建库。

我使用的是NCBI中的拟南芥参考数据库建的库,先是用的基因组序列和gtf文件,用的下面代码。

java -jar ~/snpEff/snpEff.jar build -c ~/snpEff/snpEff.config -gtf22 -v AT_10

但是当使用的时候出现了下列错误:

java.lang.RuntimeException: java.lang.RuntimeException: File not found on the server. Make sure the database name is correct.

也没找到是什么原因,后来想想NCBI注释文件一直使用的gff3的文件,参考数据库中所带的gft文件可能不太对。所以就换了gff3的注释文件重新建库,果然可以了。

java -jar ~/snpEff/snpEff.jar build -c ~/snpEff/snpEff.config -gff -v AT_10

最后运行分析程序就可以了。

java -Xmx10G -jar ~/snpEff/snpEff.jar eff -c ~/snpEff/snpEff.config AT_10 positive.vcf > positive.snp.eff.vcf

对于结果解读可以参考这篇文章(SnpEff结果解读)。

CIRCOS快速安装

因要画圈图来展现测序获得的SNP的密度和质量,打算用用这个原来见过无数次但都没有用过的circos(听说非常强大)。

其实官网上已经给出了详细的安装教程,没有必要重复列出,这里主要说一下需要注意的问题。先简要说一下安装的顺序。

1、下载 circos (建议去官网下载)。

2、解压circos-current.tgz, 进入到解压后的文件,打开bin这个文件夹,运行

> circos -modules
ok       1.26 Carp
ok       0.37 Clone
ok       2.50 Config::General
ok       3.33 Cwd
ok      2.145 Data::Dumper
ok       2.52 Digest::MD5
ok       2.76 File::Basename
ok       3.33 File::Spec::Functions
ok       0.22 File::Temp
ok       1.49 FindBin
ok       0.39 Font::TTF::Font
ok       2.43 GD
ok        0.2 GD::Polyline
ok       2.37 Getopt::Long
ok       1.14 IO::File
ok       0.33 List::MoreUtils
ok       1.38 List::Util
ok       0.01 Math::Bezier
ok       1.59 Math::BigFloat
ok       0.06 Math::Round
ok       0.08 Math::VecStat
ok    1.01_02 Memoize
ok       1.13 POSIX
ok       0.95 Params::Validate
ok       1.36 Pod::Usage
ok       1.03 Readonly
ok 2010010201 Regexp::Common
ok       2.49 SVG
ok       1.16 Set::IntSpan
ok     1.6607 Statistics::Basic
ok       2.30 Storable
ok       1.11 Sys::Hostname
ok       2.02 Text::Balanced
ok       0.53 Text::Format
ok     1.9725 Time::HiRes

确定每个模块都ok,对于标记为missing的模块,使用cpan安装。GD模块安装不上的话接着看下一步。

3、安装GD

建议使用yum install 安装,附带的库也会一起安装,不然还要一下一个的下载源代码去安装,如ncurses, zlib,PNG,ttf ,libmcrypt,JPEG6libxml2,Fontconfig 非常麻烦。如果没有yum权限那就没有办法了,乖乖的一个一个安吧。

>yum -y install gd-devel.x86_64

4、安装好上面的GD库后,再返回再用cpan安装GD模块。

5、进入到circos的安装目录的example文件夹中,运行事例文件。

> ./run