最新blast本地化

原来做过本地blast,但那是三年前的事了,这次来新单位后要重新自己构建blast,才发现NCBI中blast已经有了很多变化,默认连接的下载页面变成了blast+,blast+中主要程序描述如下:

Program Function
blastdbcheck 检查数据库完整性
blastcmd 从blast数据库中检索序列或其它信息
blast_aliastool 创建数据库别名
blastn 核酸序列与核酸数据库比较
blastp 蛋白质序列与蛋白质数据库比较
blastx 核酸序列与蛋白持数据库比较
blast_formatter 使用指定的ID格式化网络blast结果
convert2blastmask 转换小写的masking成makeblastdb可读格式
dustmasker 过滤掉低重复序列
lagacy_blast.pl 转换一个legacy blast search程序为blast+配对并执行
makeblastdb 格式化一个FASTA文件为一个blast数据库
makembindex 为一个存在的核酸数据库建立一个megablast索引
psiblast 查找蛋白质家族,计算提供的蛋白质的遗传距离或者建立位置特异性矩阵
rpsblast 从一个蛋白质保守区域数据库中检索蛋白序列的功能区域
rpsblast 将核酸序列以六种阅读框的形式转换成蛋白序列后从蛋白保守区域数据库中检索蛋白功能区域
segmasker 过滤掉低重复序列并转换成蛋白序列
tblastn 在核酸数据库中检索蛋白序列
tblastx

核酸与核酸数据库在蛋白质水平比较

update_blastdb.pl 在NCBI中下载blast数据库

这个blast+程序虽然功能强大了,但一下子还用不习惯,而且平时用得最多的比较两个序列的程序也没有,于是想找原来的blast,阅读了大量的说明,花了我半天的时间终于找到了,地址为:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/LATEST ,下载与系统匹配的就可以了,一般如果是windows XP 系统就下载win32的,windows 7或windows 8 64位的就下载win64,而我的系统为ubuntu 64位系统就下载了blast-2.2.26-x64-linux.tar.gz,解压后在解压文件的/bin/文件夹就可以看到熟悉的blastall,formatdb,bl2seq等程序了,具体功能描述如下(原始说明):

Program Function
bl2seq Directly comparing two FASTA sequences
blastall legacy blast containing the subfunction of blastn, blastp, blastx, tblastn, and tblastx
blastclust Clusters input FASTA sequences into related groups
blastpgp Standalone PSI-BLAST for search of distantly related protein sequences and generate position-specific matrices
copymat Copies blastpgp output for input to makemat
fastacmd Retrieves specific sequence or dumps the sequences from a formatted blast database
formatdb Convert FASTA formatted seqeucne file into BLAST database
formatrpsdb Format scoremat files into an RPSBLAST database
impala protein profile search program, mostly replaced by rpsblast
makemat Convert the copymat files into scoremat format, no loger needed by new blastpgp output
megablast Faster batch blastn program that uses greedy-algorithm. Works in contiguous or more sensitive discontiguous mode
rpsblast reverse PSI-BLAST program for searching against conserved domain database
seedtop Pattern search program

关于程序调用方法网上有很多资料,就不多在这里重复,这里只举个简单的例子,如调用bl2seq,“./bl2seq -i seq1.fa -j seq2.fa”。

基因数据库下载

下面是Ensembl上的基因数据库下载,主要是哺乳动物,包括基因组序列,核酸序列,蛋白序列,及这些序列在EMBL和NCBI上的注释,还有提供的MYSQL数据库文件,并对物种名称做了一下简单的翻译,方便查找。如果要查找更详细的情况,可以直接上EMBL的网站。 继续阅读

利用UCSC找序列的上下游基因

如果有一段序列,想找到其上下游基因,方法很多,发现用UCSC比较直观明了。
以下面这段人源序列为例,首先打开UCSC 的Blat界面,选择基因组为“Human”,版本选择最新的“Fed.2009(GRCh37/hg19)”,其它的采用默认的,在文本域中拷入下面的序列,点击文本域下的“submit”提交就可以了。 继续阅读

NCBI中RefSeq各种accession说明(二)

在前面介绍了一些常见序列的accession号,其实在NCBI中还有很多accession号,仅与RNA相关的就有116种,这里各举一个例子供参考。不同的编码代号代表不同的意思,如NM_开头的表示标准序列,XM_表示预测的蛋白编码序列,NR_表示非编码蛋白的mRNA序列,AF开头的表示克隆序列,BC开头的表示模板序列,大家可以细细研究。 继续阅读

NCBI中RefSeq各种accession说明(一)

我们在NCBI上找序列时,特别是看Blast结果时,经常会看到各种标记的序列,不知道哪个才是想要的,特此查了相关资料,找到了一些说明。根据个人经验,如果想找标准序列的话,mRNA就采用NM_开头的,基因组用NC_或者AC_开头的,有关RNA的编号说明,可以参考下一篇文章继续阅读