POLCA安装与使用

POLCA是约翰霍普金斯大学MaSuRCA (Maryland Super Read Cabog Assembler)项目中组装基因组序列polishing 工具,是 MaSuRCA 的子程序,所以安装 MaSuRCA 可以顺便把POLCA安装了。

  1. MaSuRCA 对perl版本要求比较高,我原来的perl 5.26版本的不行,安装 MaSuRCA时显示 <stdio.h> 库不正确,就在本地安装了一个最新的perl版本5.34, 下载perl-5.34.1.tar.gz 解压后运行 ‘./Configure -des -Dprefix=$HOME/local/perl5.34’(在本用户local目录下安装 ),然后编译, ‘make instll’,perl就安装好了,最后将新安装的perl加入到环境变量中去 (修改 .bashrc文件).
  2. 下载并安装MaSuRCA
wget https://github.com/alekseyzimin/masurca/releases/download/v4.0.9/MaSuRCA-4.0.9.tar.gz
tar xzvf MaSuRCA-4.0.9.tar.gz
cd ./MaSuRCA-4.0.9
sh install.sh
ln -s ~/soft/MaSuRCA-4.0.9/bin/polca.sh ~/bin/polca.sh

3. 运行polca

polca.sh -a draft.fasta -r 'short_reads_1.fq.gz short_reads_2.fq.gz' -t 15 -m 20G &

draft.fasta为需要polishing的基因组,-r后接的二代测序的fastq格式的测序文件,-t后面设置的使用的线程数目,-m后为所使用的最大内存。

Galaxy介绍

galaxy是一个很好的生信云平台,云平台也是今后的趋势,毕竟在本地安装各种各样的软件实在是太折腾人了。网址:https://usegalaxy.org/ 。 如果想用的话可以看官方操作说明。简单的操作可以看这篇博客。

admixture的安装

由于admixture软件下载(http://software.genetics.ucla.edu/admixture/download.html )地址打不开了,所以admixture无法从原网址下,尝试使用了

conda install admixture

还是不行,最后想到admixture是生物信息软件,应该用专用的生物类的conda下载,试了下,果然OK。

conda install -c bioconda admixture

Blast+本地化及使用方法

原来一直用blast的,但NCBI已停止了对blast的更新,而强力推荐使用blast+,这次因为要做blast的数据量比较大,所以试了一下blast+,同时也用blast做了一下,发现blast+果然要快得多,看来习惯要改变了。其实blast+和blast的原理差不多,只不过程序参数和名称有了点变化而已,现简要介绍一下其本地化的方法:
1、下载最新版的程序,根据自己的系统选择合适的版本。
2、解压后进入程序目录……ncbi-blast-2.2.31+/bin,各个程序的功能说明可以参考我的另外一篇博客
3、各程序的参数说明可以用自带的help,例如想查blastx的参数说明可以用: ./blastx -help
4、做blast前一般要先格式化数据库,除非只是几个序列之间的比对,例如格式化一个蛋白数据库可以用下列参数:
$HOME/……/ncbi-blast-2.2.31+/bin/makeblastdb -in uniprot_sport -dbtype prot -input_type fasta -parse_seqids -hash_index
主要几个程序的使用例子:
blastp -query protein.fa -out /protein.output -db dbname -outfmt 0 -evalue 1e-3 -max_target_seqs 20
blastn -query nucl.fa -out output -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
blastx -query nucl.fa -out output -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
参数说明:
-query: 输入文件路径及文件名
-out:输出文件路径及文件名
-db:格式化了的数据库路径及数据库名
-outfmt:输出文件格式,2.2.31版共有14种格式,6是tabular格式对应BLAST的m8格式
-evalue:设置输出结果的e-value值
-max_target_seqs:找到的最大的目标的数目,也可用-num_descriptions,tabular格式输出结果的条数

最新Boost和bjam的快捷安装

boost是一个可移植,能提供源代码的C++库,是C++标准化进程的引擎之一,由C++标准委员会工作组成员发起。最近因为要安装cufflinks(分析转录本数据的程序),但cufflinks是依附于boost的,所以得先安装boost,而安好boost后需要bjam编译,网上找了一些bjam安装教程,但大多是以前版本的,我安的是最新的boost_1_55_0,这些教程都不适用,而且最新的bjam是boost-jam-3.1.18.tgz,在这个版本之后就不再更新了,用这个bjam编译显示与boost版本不一致,说明这种方法不行,凭借多年搞程序的经验(不排除运气成分),运行了一下boost_1_55_0中的./bootstrap.sh程序,bjam就出现了boost中自身就带了bjam程序,同时产生了一个b2的可执行程序,./bjam –toolset=gcc link=static runtime-link=static install ,下面简单介绍一下一些主要参数的含义:
1、toolset:指定编译器,如gcc, msvc, msvc-9.0, borland等;
2、prefix/stagedir:stage时使用stagedir,install时使用prefix,指定编译生成的路径(如–prefix=”./bjam/”,如果不指定,默认为/usr/local/);
3、link:生成动态链接库或者静态链接库,shared为动态,static为静态,动态库本身只是一些索引,本身没有库文件,要用到的时候根据这些索引可以找到这些库文件,静态是已包含全部库文件,如果硬盘条件允许的话建议用静态,如果用到的库文件不是很多而且不想浪费太多资源的话就用动态;
4、runtime-link:程序运行时采用的库,同样包含动态(shared)和静态(static)两种;
5、stage/install:stage表示只生成库(dll和lib),install还会生成包含头文件的include目录;
6、withou/with:不编译或者编译哪些库;

linux 安装和使用NCBI剪接边界工具splign

splign是NCBI中一个比对cDNA和genome的一个工具,通过splign可以很方便的找到cDNA各个外显子。Windows下安装非常简单,下载后就可以直接用了,但linux版本下运行需要一些相关的包,下面介绍一下splign在linux下的安装和使用(windows中splign的使用和linux一样)。
首先下载相应的版本,我的linux系统是ubuntu 64位的,下载Linux x64,解压”gunzip splign”,修改文件属性为可执行文件”chomd 777 splign”,试着运行一下”./splign”,一般会报错”splign: error while loading shared libraries: libpcre.so.0: cannot open shared object file: No such file or directory”,那是因为缺少模块 “libpcre.so.0″, 应下载安装pcre包(pcre-8.21)。 继续阅读

Bowtie使用介绍

Bowtie(下载)是一个超级快速的,较为节省内存的短序列拼接至模板基因组的工具。它在拼接35碱基长度的序列时,可以达到每小时2.5亿次的拼接速度。Bowtie并不是一个简单的拼接工具,它不同于Blast等。它适合的工作是将小序列比对至大基因组上去。它最长能读取1024个碱基的片段。换言之,bowtie非常适合下一代测序技术。
继续阅读

FTP下载工具Filezilla介绍

对于搞生物信息学的,有很多公共资源都可以通过FTP下载到,选择一个给力的FTP下载工具尤为重要,经过这么多年的使用体会,觉得Filezilla[软件下载]非常不错,界面简单易用,软件体积小,支持续传,关键还是免费。对于可以免费下载的资源,只需要在主机边输入ftp地址,其它的都不需要变,点击“快速连接”就可以了。如果连接断开,再点一下快速连接,选择默认的“放弃之前的连接并在当前标签中连接”,“确定”就行了。