Blast+本地化及使用方法

原来一直用blast的,但NCBI已停止了对blast的更新,而强力推荐使用blast+,这次因为要做blast的数据量比较大,所以试了一下blast+,同时也用blast做了一下,发现blast+果然要快得多,看来习惯要改变了。其实blast+和blast的原理差不多,只不过程序参数和名称有了点变化而已,现简要介绍一下其本地化的方法:
1、下载最新版的程序,根据自己的系统选择合适的版本。
2、解压后进入程序目录……ncbi-blast-2.2.31+/bin,各个程序的功能说明可以参考我的另外一篇博客
3、各程序的参数说明可以用自带的help,例如想查blastx的参数说明可以用: ./blastx -help
4、做blast前一般要先格式化数据库,除非只是几个序列之间的比对,例如格式化一个蛋白数据库可以用下列参数:
$HOME/……/ncbi-blast-2.2.31+/bin/makeblastdb -in uniprot_sport -dbtype prot -input_type fasta -parse_seqids -hash_index
主要几个程序的使用例子:
blastp -query protein.fa -out /protein.output -db dbname -outfmt 0 -evalue 1e-3 -max_target_seqs 20
blastn -query nucl.fa -out output -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
blastx -query nucl.fa -out output -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
参数说明:
-query: 输入文件路径及文件名
-out:输出文件路径及文件名
-db:格式化了的数据库路径及数据库名
-outfmt:输出文件格式,2.2.31版共有14种格式,6是tabular格式对应BLAST的m8格式
-evalue:设置输出结果的e-value值
-max_target_seqs:找到的最大的目标的数目,也可用-num_descriptions,tabular格式输出结果的条数

最新miRBase物种及其编号(二)

organism division name NCBI-taxid
aau AAU Acacia auriculiformis 205027
amg AMG Acacia mangium 224085
api API Acyrthosiphon pisum 7029
aae AAE Aedes aegypti 7159
ata ATA Aegilops tauschii 37682
atr ATR Amborella trichopoda 13333
aqu AQU Amphimedon queenslandica 400682
aca ACA Anolis carolinensis 28377
aga AGA Anopheles gambiae 7165
ame AME Apis mellifera 7460
aqc AQC Aquilegia caerulea 218851
aly ALY Arabidopsis lyrata 59689
ath ATH Arabidopsis thaliana 3702
ahy AHY Arachis hypogaea 3818
aja AJA Artibeus jamaicensis 9417
asu ASU Ascaris suum 6253
age AGE Ateles geoffroyi 9509
ama AMA Avicennia marina 82927
bpcv1 VRL Bandicoot papillomatosis carcinomatosis virus type 1 479058
bpcv2 VRL Bandicoot papillomatosis carcinomatosis virus type 2 500654
bkv VRL BK polyomavirus 10629
bmo BMO Bombyx mori 7091
bta BTA Bos taurus 9913
bfv VRL Bovine foamy virus 207343
bhv1 VRL Bovine herpesvirus 1 10320
bhv5 VRL Bovine herpesvirus 5 35244
blv VRL Bovine leukemia virus 11901
bdi BDI Brachypodium distachyon 15368
bbe BBE Branchiostoma belcheri 7741
bfl BFL Branchiostoma floridae 7739
bna BNA Brassica napus 3708
bol BOL Brassica oleracea 3712
bra BRA Brassica rapa 3711
bma BMA Brugia malayi 6279
bcy BCY Bruguiera cylindrica 106616
bgy BGY Bruguiera gymnorhiza 39984
cbn CBN Caenorhabditis brenneri 135651
cbr CBR Caenorhabditis briggsae 6238
cel CEL Caenorhabditis elegans 6239
crm CRM Caenorhabditis remanei 31234
cfa CFA Canis familiaris 9615
cte CTE Capitella teleta 283909
chi CHI Capra hircus 9925
cpa CPA Carica papaya 3649
cla CLA Cerebratulus lacteus 6221
cre CRE Chlamydomonas reinhardtii 3055
cin CIN Ciona intestinalis 7719
csa CSA Ciona savignyi 51511
ccl CCL Citrus clementina 85681
crt CRT Citrus reticulata 85571
csi CSI Citrus sinensis 2711
ctr CTR Citrus trifoliata 37690
cgr CGR Cricetulus griseus 10029
cme CME Cucumis melo 3656
cqu CQU Culex quinquefasciatus 7176
cln CLN Cunninghamia lanceolata 28977
cca CCA Cynara cardunculus 4265
ccr CCR Cyprinus carpio 7962
dre DRE Danio rerio 7955
dpu DPU Daphnia pulex 6669
ddi DDI Dictyostelium discoideum 44689
dpr DPR Digitalis purpurea 4164
dan DAN Drosophila ananassae 7217
der DER Drosophila erecta 7220
dgr DGR Drosophila grimshawi 7222
dme DME Drosophila melanogaster 7227
dmo DMO Drosophila mojavensis 7230
dpe DPE Drosophila persimilis 7234
dps DPS Drosophila pseudoobscura 7237
dse DSE Drosophila sechellia 7238
dsi DSI Drosophila simulans 7240
dvi DVI Drosophila virilis 7244
dwi DWI Drosophila willistoni 7260
dya DYA Drosophila yakuba 7245
dev VRL Duck enteritis virus 104388
egr EGR Echinococcus granulosus 6210
emu EMU Echinococcus multilocularis 6211
esi ESI Ectocarpus siliculosus 2880
egu EGU Elaeis guineensis 51953
ebv VRL Epstein Barr virus 10376
efu EFU Eptesicus fuscus 29078
eca ECA Equus caballus 9796
far FAR Festuca arundinacea 4606
fru FRU Fugu rubripes 31033
gga GGA Gallus gallus 9031
gpy GPY Glottidia pyramidata 34515
gma GMA Glycine max 3847
gso GSO Glycine soja 3848
ggo GGO Gorilla gorilla 9593
gar GAR Gossypium arboreum 29729
ghb GHB Gossypium herbaceum 34274
ghr GHR Gossypium hirsutum 3635
gra GRA Gossypium raimondii 29730
gsa GSA Gyrodactylus salaris 37629
hco HCO Haemonchus contortus 6289
hru HRU Haliotis rufescens 6454
han HAN Helianthus annuus 4232
har HAR Helianthus argophyllus 73275
hci HCI Helianthus ciliaris 73280
hex HEX Helianthus exilis 400408
hpa HPA Helianthus paradoxus 73304
hpe HPE Helianthus petiolaris 4234
htu HTU Helianthus tuberosus 4233
hme HME Heliconius melpomene 34740
hbv VRL Herpes B virus 10325
hsv1 VRL Herpes Simplex Virus 1 10298
hsv2 VRL Herpes Simplex Virus 2 10310
hvt VRL Herpesvirus of turkeys 37108
hvsa VRL Herpesvirus saimiri strain A11 570519
hbr HBR Hevea brasiliensis 3981
hhi HHI Hippoglossus hippoglossus 8267
hsa HSA Homo sapiens 9606
hvu HVU Hordeum vulgare 4513
hcmv VRL Human cytomegalovirus 10359
hhv6b VRL Human herpesvirus 6B 32604
hiv1 VRL Human immunodeficiency virus 1 11676
hma HMA Hydra magnipapillata 6085
ipu IPU Ictalurus punctatus 7998
iltv VRL Infectious laryngotracheitis virus 10386
isc ISC Ixodes scapularis 6945
jcv VRL JC polyomavirus 10632
kshv VRL Kaposi sarcoma-associated herpesvirus 37296
lla LLA Lagothrix lagotricha 9519
lca LCA Lemur catta 9447
lco LCO Leucosolenia complicata 433461
lus LUS Linum usitatissimum 4006
lmi LMI Locusta migratoria 7004
lgi LGI Lottia gigantea 225164
lja LJA Lotus japonicus 34305
lva LVA Lytechinus variegatus 7654
mml MML Macaca mulatta 9544
mne MNE Macaca nemestrina 9545
meu MEU Macropus eugenii 9315
mdm MDM Malus domestica 3750
mse MSE Manduca sexta 7130
mes MES Manihot esculenta 3983
mdv1 VRL Mareks disease virus type 1 10390
mdv2 VRL Mareks disease virus type 2 36353
mja MJA Marsupenaeus japonicus 27405
mtr MTR Medicago truncatula 3880
mcv VRL Merkel cell polyomavirus 493803
mdo MDO Monodelphis domestica 13616
mcmv VRL Mouse cytomegalovirus 10366
mghv VRL Mouse gammaherpesvirus 68 33708
mmu MMU Mus musculus 10090
ngi NGI Nasonia giraulti 7426
nlo NLO Nasonia longicornis 7427
nvi NVI Nasonia vitripennis 7425
nve NVE Nematostella vectensis 45351
nta NTA Nicotiana tabacum 4097
odi ODI Oikopleura dioica 34765
oha OHA Ophiophagus hannah 8665
oan OAN Ornithorhynchus anatinus 9258
ocu OCU Oryctolagus cuniculus 9986
osa OSA Oryza sativa 4530
ola OLA Oryzias latipes 8090
oar OAR Ovis aries 9940
ppa PPA Pan paniscus 9597
ptr PTR Pan troglodytes 9598
prd PRD Panagrellus redivivus 6233
pgi PGI Panax ginseng 4054
pol POL Paralichthys olivaceus 8255
pmi PMI Patiria miniata 46514
pma PMA Petromyzon marinus 7757
pti PTI Phaeodactylum tricornutum 2850
pvu PVU Phaseolus vulgaris 3885
ppt PPT Physcomitrella patens 3218
pin PIN Phytophthora infestans 4787
pra PRA Phytophthora ramorum 164328
psj PSJ Phytophthora sojae 67593
pab PAB Picea abies 3329
pde PDE Pinus densata 190402
pta PTA Pinus taeda 3352
pxy PXY Plutella xylostella 51655
ppy PPY Pongo pygmaeus 9600
peu PEU Populus euphratica 75702
ptc PTC Populus trichocarpa 3694
ppc PPC Pristionchus pacificus 54126
ppe PPE Prunus persica 3760
prv VRL Pseudorabies virus 10345
pbi PBI Pygathrix bieti 61621
rno RNO Rattus norvegicus 10116
rgl RGL Rehmannia glutinosa 99300
rlcv VRL Rhesus lymphocryptovirus 45455
rrv VRL Rhesus monkey rhadinovirus 703611
rmi RMI Rhipicephalus microplus 6941
rco RCO Ricinus communis 3988
sof SOF Saccharum officinarum 4547
ssp SSP Saccharum sp. 15819
sko SKO Saccoglossus kowalevskii 10224
sla SLA Saguinus labiatus 78454
ssa SSA Salmo salar 8030
ssl SSL Salvia sclarea 38869
sha SHA Sarcophilus harrisii 9305
sja SJA Schistosoma japonicum 6182
sma SMA Schistosoma mansoni 6183
sme SME Schmidtea mediterranea 79327
smo SMO Selaginella moellendorffii 88036
sv40 VRL Simian virus 40 10633
sly SLY Solanum lycopersicum 4081
stu STU Solanum tuberosum 4113
sbi SBI Sorghum bicolor 4558
smr SMR Strigamia maritima 126957
spu SPU Strongylocentrotus purpuratus 7668
str STR Strongyloides ratti 34506
ssc SSC Sus scrofa 9823
sci SCI Sycon ciliatum 27933
ssy SSY Symphalangus syndactylus 9590
tgu TGU Taeniopygia guttata 59729
tre TRE Terebratulina retusa 7580
tur TUR Tetranychus urticae 32264
tni TNI Tetraodon nigroviridis 99883
tcc TCC Theobroma cacao 3641
tca TCA Tribolium castaneum 7070
tae TAE Triticum aestivum 4565
ttu TTU Triticum turgidum 4571
tch TCH Tupaia chinensis 246437
vun VUN Vigna unguiculata 3917
vvi VVI Vitis vinifera 29760
xla XLA Xenopus laevis 8355
xtr XTR Xenopus tropicalis 8364
xbo XBO Xenoturbella bocki 242395
zma ZMA Zea mays 4577

CentOS7建立FTP站点

ftp站点相对于http站点,具有共享文件方便的特点,经过一段时间的折磨,终于算是弄好了。现简单记录一下其过程,以备忘。
1、安装ftp和vsftpd
rpm -q vsftpd ###查看是否安装vsftpd没有安装的话执行下面的命令
yum -y install vsftpd && ftp
chkconfig vsftpd on #####设置开机启动

2、建立和修改ftp用户
安装ftp后系统内会添加一个名称为ftp的用户,通过”vim /etc/passwd”可以查看到,该用户的默认目录为”/var/ftp”,可以勇冠”usermod -d /home/ftp ftp”可以将ftp的用户目录改为”/home/ftp”,并修改目录权限为不可写”chmod -R 555 /home/ftp”。这个非常必要,否则登录不上,即使在后面的vsftpd.conf中设置了也会登录不上,除非关闭selinux,这是vsftp基于安全的考虑,至于其它的设置方法现在还不是很清楚。修改用户”ftp”的密码,”passwd ftp”,会提示输入新密码,重复输入一次就可以了。

3、配置vsftpd.conf
打开vsftpd.conf”vim /etc/vsftpd/vsftpd.conf”,在后面添加
userlist_file=/etc/vsftpd/vftpuser.txt
virtual_use_local_privs=YES
guest_enable=YES
guest_username=ftp
pasv_enable=YES
pasv_min_port=50000
pasv_max_port=60000
chroot_local_user=YES
chroot_list_enable=YES
chroot_list_file=/etc/vsftpd/chroot_list
并分别在/etc/vsftpd/vftpuser.txt、chroot_list、user_list中添加用户”ftp”(加一行ftp就行),如果不存在上述文件,就先创建后添加。

4、配制防火墙
vi /etc/sysconfig/iptables
添加下面几行
-A INPUT -p icmp -j ACCEPT
-A INPUT -i lo -j ACCEPT
-A OUTPUT -i lo -j ACCEPT
-A INPUT -m state –state ESTABLISHED -j ACCEPT
-A OUTPUT -m state –state ESTABLISHED -j ACCEPT
-P INPUT DROP
-P OUTPUT DROP
-A INPUT -p tcp -m state –state NEW -m tcp –dport 21 -j ACCEPT
-A INPUT -p tcp –dport 50000:60000 -j ACCEPT
-A OUTPUT -p tcp -m state –state NEW -m tcp –dport 21 -j ACCEPT

重新启动iptables和vsftpd就可以了(systemctl restart iptables.service && service vsftpd restart)。
如果是IE浏览器就用”ftp://ftp:密码@你主机的ip地址”登录,添加其它用户只需要创建用户后在vftpuser.txt、chroot_list、user_list中添加相应的用户名就可以了。

perl DBI模块详解

Perl DBI是Perl数据库接口(Perl Database Interface,简称DBI)。通过提供一系列在内部上能够转化成原始调用函数的功能,DBI模块为很多不同的数据库提供了一个统一的接口,包括mysql,Oracle等。
可移植的DBI方法:
connect 建立到一个数据库服务器的连接
disconnect 断开数据库服务器的连接
prepare 准备执行一个SQL语句
继续阅读

Bioperl的简单安装

按照Bioperl上介绍的方法在linux下安装Bioperl老是安不上,或者是安装上了,但不能用,上面介绍的几种方法都试了,全不行,后面自己想了个办法,就是利用cpan只对要用到的模块进行单独安装,简单适应,如果你和我碰到了同样的问题不妨试试。
0、用root用户登录,不能由于权限问题,安装不上去。
1、确定cpan能用。
>perl -MCPAN -e shell
cpan>install Bundle::CPAN
cpan>q
2、升级cpan,保证安装的模块是最新的。
>cpan
cpan>install Module::Build
cpan>o conf prefer_installer MB
cpan>o conf commit
cpan>q
3、安装Bioperl最重要的模块SeqIO(该模块可以实现文件格式转换,计算序列长度,blast信息提取等),中间会有些选项要求选择,一路回车采用默认的就行了。
cpan>install Bio::SeqIO
4、安装SeqFeature模块(序列特征信息的获取或解析)。
cpan>install Bio::SeqFeature
5、安装GenBank模块
cpan>install Bio::GenBank
6、安装AlignIO和AlignI模块(数据格式格式转换)。
cpan>install Bio::AlignIO
cpan>install Bio::AlignI
7、安装DNAstatistics模块(序列统计分析,进化距离计算)。
cpan>install Bio::DNAstatistics

上面是一引起常用的模块,至于其它的一些模块如果要用到就按这种方法安装就行了。
利用cpan安装的模块默认路径是当前用户的perl5/lib/perl5目录下面,如/root/perl5/lib/perl5/,如果运行perl -e “use Bio::SeqIO”还是找不到该模块的话,可以将 /当前用户/perl5/lib/perl5/下的文件拷贝到@INC目录中,如/usr/local/lib64/perl5/中,最好也将/当前用户/perl5/bin/中的文件拷贝到/usr/local/bin/perl5中,以后可在那里调用。

linux 安装和使用NCBI剪接边界工具splign

splign是NCBI中一个比对cDNA和genome的一个工具,通过splign可以很方便的找到cDNA各个外显子。Windows下安装非常简单,下载后就可以直接用了,但linux版本下运行需要一些相关的包,下面介绍一下splign在linux下的安装和使用(windows中splign的使用和linux一样)。
首先下载相应的版本,我的linux系统是ubuntu 64位的,下载Linux x64,解压”gunzip splign”,修改文件属性为可执行文件”chomd 777 splign”,试着运行一下”./splign”,一般会报错”splign: error while loading shared libraries: libpcre.so.0: cannot open shared object file: No such file or directory”,那是因为缺少模块 “libpcre.so.0″, 应下载安装pcre包(pcre-8.21)。 继续阅读

最新blast本地化

原来做过本地blast,但那是三年前的事了,这次来新单位后要重新自己构建blast,才发现NCBI中blast已经有了很多变化,默认连接的下载页面变成了blast+,blast+中主要程序描述如下:

Program Function
blastdbcheck 检查数据库完整性
blastcmd 从blast数据库中检索序列或其它信息
blast_aliastool 创建数据库别名
blastn 核酸序列与核酸数据库比较
blastp 蛋白质序列与蛋白质数据库比较
blastx 核酸序列与蛋白持数据库比较
blast_formatter 使用指定的ID格式化网络blast结果
convert2blastmask 转换小写的masking成makeblastdb可读格式
dustmasker 过滤掉低重复序列
lagacy_blast.pl 转换一个legacy blast search程序为blast+配对并执行
makeblastdb 格式化一个FASTA文件为一个blast数据库
makembindex 为一个存在的核酸数据库建立一个megablast索引
psiblast 查找蛋白质家族,计算提供的蛋白质的遗传距离或者建立位置特异性矩阵
rpsblast 从一个蛋白质保守区域数据库中检索蛋白序列的功能区域
rpsblast 将核酸序列以六种阅读框的形式转换成蛋白序列后从蛋白保守区域数据库中检索蛋白功能区域
segmasker 过滤掉低重复序列并转换成蛋白序列
tblastn 在核酸数据库中检索蛋白序列
tblastx

核酸与核酸数据库在蛋白质水平比较

update_blastdb.pl 在NCBI中下载blast数据库

这个blast+程序虽然功能强大了,但一下子还用不习惯,而且平时用得最多的比较两个序列的程序也没有,于是想找原来的blast,阅读了大量的说明,花了我半天的时间终于找到了,地址为:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/LATEST ,下载与系统匹配的就可以了,一般如果是windows XP 系统就下载win32的,windows 7或windows 8 64位的就下载win64,而我的系统为ubuntu 64位系统就下载了blast-2.2.26-x64-linux.tar.gz,解压后在解压文件的/bin/文件夹就可以看到熟悉的blastall,formatdb,bl2seq等程序了,具体功能描述如下(原始说明):

Program Function
bl2seq Directly comparing two FASTA sequences
blastall legacy blast containing the subfunction of blastn, blastp, blastx, tblastn, and tblastx
blastclust Clusters input FASTA sequences into related groups
blastpgp Standalone PSI-BLAST for search of distantly related protein sequences and generate position-specific matrices
copymat Copies blastpgp output for input to makemat
fastacmd Retrieves specific sequence or dumps the sequences from a formatted blast database
formatdb Convert FASTA formatted seqeucne file into BLAST database
formatrpsdb Format scoremat files into an RPSBLAST database
impala protein profile search program, mostly replaced by rpsblast
makemat Convert the copymat files into scoremat format, no loger needed by new blastpgp output
megablast Faster batch blastn program that uses greedy-algorithm. Works in contiguous or more sensitive discontiguous mode
rpsblast reverse PSI-BLAST program for searching against conserved domain database
seedtop Pattern search program

关于程序调用方法网上有很多资料,就不多在这里重复,这里只举个简单的例子,如调用bl2seq,“./bl2seq -i seq1.fa -j seq2.fa”。

Bioinformatics 2013年4月12日文章列表

引语

以下是《Bioinformatics》2013年4月12日文章列表,不过貌似需要Oxford Journals的权限才能下载到全文。

Original Papers
EDAM: an ontology of bioinformatics operations, types of data and identifiers, topics and formats
Jon Ison, Matúš Kalaš, Inge Jonassen, Dan Bolser, Mahmut Uludag, Hamish McWilliam, James Malone, Rodrigo Lopez, Steve Pettifer, and Peter Rice
Bioinformatics published 11 March 2013, 10.1093/bioinformatics/btt113

继续阅读