Blast+本地化及使用方法

原来一直用blast的,但NCBI已停止了对blast的更新,而强力推荐使用blast+,这次因为要做blast的数据量比较大,所以试了一下blast+,同时也用blast做了一下,发现blast+果然要快得多,看来习惯要改变了。其实blast+和blast的原理差不多,只不过程序参数和名称有了点变化而已,现简要介绍一下其本地化的方法:
1、下载最新版的程序,根据自己的系统选择合适的版本。
2、解压后进入程序目录……ncbi-blast-2.2.31+/bin,各个程序的功能说明可以参考我的另外一篇博客
3、各程序的参数说明可以用自带的help,例如想查blastx的参数说明可以用: ./blastx -help
4、做blast前一般要先格式化数据库,除非只是几个序列之间的比对,例如格式化一个蛋白数据库可以用下列参数:
$HOME/……/ncbi-blast-2.2.31+/bin/makeblastdb -in uniprot_sport -dbtype prot -input_type fasta -parse_seqids -hash_index
主要几个程序的使用例子:
blastp -query protein.fa -out /protein.output -db dbname -outfmt 0 -evalue 1e-3 -max_target_seqs 20
blastn -query nucl.fa -out output -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
blastx -query nucl.fa -out output -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
参数说明:
-query: 输入文件路径及文件名
-out:输出文件路径及文件名
-db:格式化了的数据库路径及数据库名
-outfmt:输出文件格式,2.2.31版共有14种格式,6是tabular格式对应BLAST的m8格式
-evalue:设置输出结果的e-value值
-max_target_seqs:找到的最大的目标的数目,也可用-num_descriptions,tabular格式输出结果的条数

最新Boost和bjam的快捷安装

boost是一个可移植,能提供源代码的C++库,是C++标准化进程的引擎之一,由C++标准委员会工作组成员发起。最近因为要安装cufflinks(分析转录本数据的程序),但cufflinks是依附于boost的,所以得先安装boost,而安好boost后需要bjam编译,网上找了一些bjam安装教程,但大多是以前版本的,我安的是最新的boost_1_55_0,这些教程都不适用,而且最新的bjam是boost-jam-3.1.18.tgz,在这个版本之后就不再更新了,用这个bjam编译显示与boost版本不一致,说明这种方法不行,凭借多年搞程序的经验(不排除运气成分),运行了一下boost_1_55_0中的./bootstrap.sh程序,bjam就出现了boost中自身就带了bjam程序,同时产生了一个b2的可执行程序,./bjam –toolset=gcc link=static runtime-link=static install ,下面简单介绍一下一些主要参数的含义:
1、toolset:指定编译器,如gcc, msvc, msvc-9.0, borland等;
2、prefix/stagedir:stage时使用stagedir,install时使用prefix,指定编译生成的路径(如–prefix=”./bjam/”,如果不指定,默认为/usr/local/);
3、link:生成动态链接库或者静态链接库,shared为动态,static为静态,动态库本身只是一些索引,本身没有库文件,要用到的时候根据这些索引可以找到这些库文件,静态是已包含全部库文件,如果硬盘条件允许的话建议用静态,如果用到的库文件不是很多而且不想浪费太多资源的话就用动态;
4、runtime-link:程序运行时采用的库,同样包含动态(shared)和静态(static)两种;
5、stage/install:stage表示只生成库(dll和lib),install还会生成包含头文件的include目录;
6、withou/with:不编译或者编译哪些库;

linux 安装和使用NCBI剪接边界工具splign

splign是NCBI中一个比对cDNA和genome的一个工具,通过splign可以很方便的找到cDNA各个外显子。Windows下安装非常简单,下载后就可以直接用了,但linux版本下运行需要一些相关的包,下面介绍一下splign在linux下的安装和使用(windows中splign的使用和linux一样)。
首先下载相应的版本,我的linux系统是ubuntu 64位的,下载Linux x64,解压”gunzip splign”,修改文件属性为可执行文件”chomd 777 splign”,试着运行一下”./splign”,一般会报错”splign: error while loading shared libraries: libpcre.so.0: cannot open shared object file: No such file or directory”,那是因为缺少模块 “libpcre.so.0″, 应下载安装pcre包(pcre-8.21)。 继续阅读

Bowtie使用介绍

Bowtie(下载)是一个超级快速的,较为节省内存的短序列拼接至模板基因组的工具。它在拼接35碱基长度的序列时,可以达到每小时2.5亿次的拼接速度。Bowtie并不是一个简单的拼接工具,它不同于Blast等。它适合的工作是将小序列比对至大基因组上去。它最长能读取1024个碱基的片段。换言之,bowtie非常适合下一代测序技术。
继续阅读

EMBOSS简介

EMBOSS(European Molecular Biology Open Software Suite)欧洲分子生物学开放软件包,整合了目前大部分序列分析软件,可以进行序列转换,序列比对,序列翻译,酶切分析,引物设计,CpG岛分析等等等等,目前共有261个程序,程序使用也比较简单,根据需要挑选合适程序,设置恰当参数,调用就可以了。因为其软件开放,特别适合批量分析,可以根据自己的需要修改和调用,是生物信息中不可或缺的工具。不过需要注意的是由于版本的不同,或者开发者所处时代的局限性,有些软件开发得比较早,对于今天可能不再实用,所以不能都照搬,一定要做测试验证。还有一个问题是图形化界面不是太丰富。感兴趣的话可以下载

FTP下载工具Filezilla介绍

对于搞生物信息学的,有很多公共资源都可以通过FTP下载到,选择一个给力的FTP下载工具尤为重要,经过这么多年的使用体会,觉得Filezilla[软件下载]非常不错,界面简单易用,软件体积小,支持续传,关键还是免费。对于可以免费下载的资源,只需要在主机边输入ftp地址,其它的都不需要变,点击“快速连接”就可以了。如果连接断开,再点一下快速连接,选择默认的“放弃之前的连接并在当前标签中连接”,“确定”就行了。