今天正式上手Typora,感觉简单方便,非常好用,打算以后博客就用它来写了,论文也用它来写,笔记也指望它了,特此为记。
NCBI测序原始数据上传
具体操作可以参照这篇博客,这里只补充几点。
1、申请登录号顺序
建议首先申请Biosample号,再申请BioProject号,最后申请SRA号。在第二步的过程中只需要填写第一个Biosample号就可以了。也可以先申请BioProject号,Biosample号先空着,再申请Biosample号,然后在填表中”bioproject_accession”填上申请的BioProject号就可以了。
2、填表的疑问
遇到最多的问题就是sample_name通不过,按照参考中的方法在最后添加一列“replicate”,然后填上对应的replicate描述就可以了。在填写“collection_date”时也应注意要使用标准日期格式,如“2021-07-01”,不能把月份和日期前面的0省略。“geo_loc_name”这栏填写上传样品基因型的位置,国家要采用标准的国家名称,后面跟冒号和省份,也可以不加。
在填写”SRA_metadata_acc”表时,”library_ID”可以自己编一个,不能重复,”title” 填写样品描述信息,可以采用如以下格式“RNA-Seq of organism: cultivar tissue”,“design_description”可以填写实验设计时的信息,如”control,replication 1″,”Treatment,replication 1″。
3、测序原始数据上传
建议使用Aspera上传,特别是数据量比较大时。可以参考这篇文章的方法,不过需要特别注意的最好上传文件夹,里面包含了所有需要上传的测序文件,不然是上传到根目录了,不能显示,费半天劲白传了。可以参考我的这个代码。”samples_dir”为包含测序文件的文件夹,“root_link”为NCBI提供的链接,点“Aspera Command-Line upload”右边的加号就会出现,一般是邮箱加密钥。一般是上传完成后10分钟才会看到结果。
nohup ~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -QT -l100m -k1 -d ~/data/transcriptome/samples/fleshed/samples_dir subasp@upload.ncbi.nlm.nih.gov:uploads/root_link &
RepeatMasker输出结果中out文件格式解析
运行完RepeatMasker后一般会生成*.cat.gz, *.masked, *.out, *.out.gff, *.out.html, *.tbl, *.finder.scn等文件,其中*.out文件最为重要,也不是很好理解,现将各列所表示的意思列出如下:
以上结果参考官方文档:http://www.repeatmasker.org/DupMaskerDownload.html
辛丑年大年初一晨
Galaxy介绍
galaxy是一个很好的生信云平台,云平台也是今后的趋势,毕竟在本地安装各种各样的软件实在是太折腾人了。网址:https://usegalaxy.org/ 。 如果想用的话可以看官方操作说明。简单的操作可以看这篇博客。
admixture的安装
由于admixture软件下载(http://software.genetics.ucla.edu/admixture/download.html )地址打不开了,所以admixture无法从原网址下,尝试使用了
conda install admixture
还是不行,最后想到admixture是生物信息软件,应该用专用的生物类的conda下载,试了下,果然OK。
conda install -c bioconda admixture
人生就像一场跑步
安装R包遇到的几点问题
1 Warning in install.packages : cannot remove prior installation of package
因为可能打开了安装这个包相关的包,重启R,重新安装。
2 namespace ‘rlang’ 0.4.6 is already loaded, but >= 0.4.7 is required
先卸载掉旧的,再安装新的。
remove.packages("rlang")
install.packages("rlang")
SnpEff安装和使用中的问题
SnpEff 软件通过基因组序列和注释文件对VCF文件中的SNP/InDel信息进行注释的软件,即主要解释了SNP/InDel是否能够对编码蛋白基因造成影响。关于snpEff使用和安装的文章很多了(如SnpEff使用方法,SnpEFF注释vcf-笔记),我这里就不再列出了,主要晒晒我在安装和使用过程中踩过的坑。
一、版本下载的问题。在这个页面有所有snpEff的版本,第一次我下了排在最前面的snpEff_v4_5covid19_core.zip,后面在安装数据库时,发现所有常见物种的数据库都安装不了,后面看到这个包的前缀才知道是covid19版本的,只有covid19的库,想重新下一个,怎奈下载速度实在是太慢,只能放弃了。用这个版本自建了个库,发现可以用。所以下载包时要注意。
二、建库。
我使用的是NCBI中的拟南芥参考数据库建的库,先是用的基因组序列和gtf文件,用的下面代码。
java -jar ~/snpEff/snpEff.jar build -c ~/snpEff/snpEff.config -gtf22 -v AT_10
但是当使用的时候出现了下列错误:
java.lang.RuntimeException: java.lang.RuntimeException: File not found on the server. Make sure the database name is correct.
也没找到是什么原因,后来想想NCBI注释文件一直使用的gff3的文件,参考数据库中所带的gft文件可能不太对。所以就换了gff3的注释文件重新建库,果然可以了。
java -jar ~/snpEff/snpEff.jar build -c ~/snpEff/snpEff.config -gff -v AT_10
最后运行分析程序就可以了。
java -Xmx10G -jar ~/snpEff/snpEff.jar eff -c ~/snpEff/snpEff.config AT_10 positive.vcf > positive.snp.eff.vcf
对于结果解读可以参考这篇文章(SnpEff结果解读)。
CIRCOS快速安装
因要画圈图来展现测序获得的SNP的密度和质量,打算用用这个原来见过无数次但都没有用过的circos(听说非常强大)。
其实官网上已经给出了详细的安装教程,没有必要重复列出,这里主要说一下需要注意的问题。先简要说一下安装的顺序。
1、下载 circos (建议去官网下载)。
2、解压circos-current.tgz, 进入到解压后的文件,打开bin这个文件夹,运行
> circos -modules
ok 1.26 Carp
ok 0.37 Clone
ok 2.50 Config::General
ok 3.33 Cwd
ok 2.145 Data::Dumper
ok 2.52 Digest::MD5
ok 2.76 File::Basename
ok 3.33 File::Spec::Functions
ok 0.22 File::Temp
ok 1.49 FindBin
ok 0.39 Font::TTF::Font
ok 2.43 GD
ok 0.2 GD::Polyline
ok 2.37 Getopt::Long
ok 1.14 IO::File
ok 0.33 List::MoreUtils
ok 1.38 List::Util
ok 0.01 Math::Bezier
ok 1.59 Math::BigFloat
ok 0.06 Math::Round
ok 0.08 Math::VecStat
ok 1.01_02 Memoize
ok 1.13 POSIX
ok 0.95 Params::Validate
ok 1.36 Pod::Usage
ok 1.03 Readonly
ok 2010010201 Regexp::Common
ok 2.49 SVG
ok 1.16 Set::IntSpan
ok 1.6607 Statistics::Basic
ok 2.30 Storable
ok 1.11 Sys::Hostname
ok 2.02 Text::Balanced
ok 0.53 Text::Format
ok 1.9725 Time::HiRes
确定每个模块都ok,对于标记为missing的模块,使用cpan安装。GD模块安装不上的话接着看下一步。
3、安装GD
建议使用yum install 安装,附带的库也会一起安装,不然还要一下一个的下载源代码去安装,如ncurses, zlib,PNG,ttf ,libmcrypt,JPEG6libxml2,Fontconfig 非常麻烦。如果没有yum权限那就没有办法了,乖乖的一个一个安吧。
>yum -y install gd-devel.x86_64
4、安装好上面的GD库后,再返回再用cpan安装GD模块。
5、进入到circos的安装目录的example文件夹中,运行事例文件。
> ./run