原来一直用blast的,但NCBI已停止了对blast的更新,而强力推荐使用blast+,这次因为要做blast的数据量比较大,所以试了一下blast+,同时也用blast做了一下,发现blast+果然要快得多,看来习惯要改变了。其实blast+和blast的原理差不多,只不过程序参数和名称有了点变化而已,现简要介绍一下其本地化的方法:
1、下载最新版的程序,根据自己的系统选择合适的版本。
2、解压后进入程序目录……ncbi-blast-2.2.31+/bin,各个程序的功能说明可以参考我的另外一篇博客。
3、各程序的参数说明可以用自带的help,例如想查blastx的参数说明可以用: ./blastx -help
4、做blast前一般要先格式化数据库,除非只是几个序列之间的比对,例如格式化一个蛋白数据库可以用下列参数:
$HOME/……/ncbi-blast-2.2.31+/bin/makeblastdb -in uniprot_sport -dbtype prot -input_type fasta -parse_seqids -hash_index
主要几个程序的使用例子:
blastp -query protein.fa -out /protein.output -db dbname -outfmt 0 -evalue 1e-3 -max_target_seqs 20
blastn -query nucl.fa -out output -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
blastx -query nucl.fa -out output -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
参数说明:
-query: 输入文件路径及文件名
-out:输出文件路径及文件名
-db:格式化了的数据库路径及数据库名
-outfmt:输出文件格式,2.2.31版共有14种格式,6是tabular格式对应BLAST的m8格式
-evalue:设置输出结果的e-value值
-max_target_seqs:找到的最大的目标的数目,也可用-num_descriptions,tabular格式输出结果的条数
分类目录归档:公共数据库
最新miRBase物种及其编号(二)
organism | division | name | NCBI-taxid |
aau | AAU | Acacia auriculiformis | 205027 |
amg | AMG | Acacia mangium | 224085 |
api | API | Acyrthosiphon pisum | 7029 |
aae | AAE | Aedes aegypti | 7159 |
ata | ATA | Aegilops tauschii | 37682 |
atr | ATR | Amborella trichopoda | 13333 |
aqu | AQU | Amphimedon queenslandica | 400682 |
aca | ACA | Anolis carolinensis | 28377 |
aga | AGA | Anopheles gambiae | 7165 |
ame | AME | Apis mellifera | 7460 |
aqc | AQC | Aquilegia caerulea | 218851 |
aly | ALY | Arabidopsis lyrata | 59689 |
ath | ATH | Arabidopsis thaliana | 3702 |
ahy | AHY | Arachis hypogaea | 3818 |
aja | AJA | Artibeus jamaicensis | 9417 |
asu | ASU | Ascaris suum | 6253 |
age | AGE | Ateles geoffroyi | 9509 |
ama | AMA | Avicennia marina | 82927 |
bpcv1 | VRL | Bandicoot papillomatosis carcinomatosis virus type 1 | 479058 |
bpcv2 | VRL | Bandicoot papillomatosis carcinomatosis virus type 2 | 500654 |
bkv | VRL | BK polyomavirus | 10629 |
bmo | BMO | Bombyx mori | 7091 |
bta | BTA | Bos taurus | 9913 |
bfv | VRL | Bovine foamy virus | 207343 |
bhv1 | VRL | Bovine herpesvirus 1 | 10320 |
bhv5 | VRL | Bovine herpesvirus 5 | 35244 |
blv | VRL | Bovine leukemia virus | 11901 |
bdi | BDI | Brachypodium distachyon | 15368 |
bbe | BBE | Branchiostoma belcheri | 7741 |
bfl | BFL | Branchiostoma floridae | 7739 |
bna | BNA | Brassica napus | 3708 |
bol | BOL | Brassica oleracea | 3712 |
bra | BRA | Brassica rapa | 3711 |
bma | BMA | Brugia malayi | 6279 |
bcy | BCY | Bruguiera cylindrica | 106616 |
bgy | BGY | Bruguiera gymnorhiza | 39984 |
cbn | CBN | Caenorhabditis brenneri | 135651 |
cbr | CBR | Caenorhabditis briggsae | 6238 |
cel | CEL | Caenorhabditis elegans | 6239 |
crm | CRM | Caenorhabditis remanei | 31234 |
cfa | CFA | Canis familiaris | 9615 |
cte | CTE | Capitella teleta | 283909 |
chi | CHI | Capra hircus | 9925 |
cpa | CPA | Carica papaya | 3649 |
cla | CLA | Cerebratulus lacteus | 6221 |
cre | CRE | Chlamydomonas reinhardtii | 3055 |
cin | CIN | Ciona intestinalis | 7719 |
csa | CSA | Ciona savignyi | 51511 |
ccl | CCL | Citrus clementina | 85681 |
crt | CRT | Citrus reticulata | 85571 |
csi | CSI | Citrus sinensis | 2711 |
ctr | CTR | Citrus trifoliata | 37690 |
cgr | CGR | Cricetulus griseus | 10029 |
cme | CME | Cucumis melo | 3656 |
cqu | CQU | Culex quinquefasciatus | 7176 |
cln | CLN | Cunninghamia lanceolata | 28977 |
cca | CCA | Cynara cardunculus | 4265 |
ccr | CCR | Cyprinus carpio | 7962 |
dre | DRE | Danio rerio | 7955 |
dpu | DPU | Daphnia pulex | 6669 |
ddi | DDI | Dictyostelium discoideum | 44689 |
dpr | DPR | Digitalis purpurea | 4164 |
dan | DAN | Drosophila ananassae | 7217 |
der | DER | Drosophila erecta | 7220 |
dgr | DGR | Drosophila grimshawi | 7222 |
dme | DME | Drosophila melanogaster | 7227 |
dmo | DMO | Drosophila mojavensis | 7230 |
dpe | DPE | Drosophila persimilis | 7234 |
dps | DPS | Drosophila pseudoobscura | 7237 |
dse | DSE | Drosophila sechellia | 7238 |
dsi | DSI | Drosophila simulans | 7240 |
dvi | DVI | Drosophila virilis | 7244 |
dwi | DWI | Drosophila willistoni | 7260 |
dya | DYA | Drosophila yakuba | 7245 |
dev | VRL | Duck enteritis virus | 104388 |
egr | EGR | Echinococcus granulosus | 6210 |
emu | EMU | Echinococcus multilocularis | 6211 |
esi | ESI | Ectocarpus siliculosus | 2880 |
egu | EGU | Elaeis guineensis | 51953 |
ebv | VRL | Epstein Barr virus | 10376 |
efu | EFU | Eptesicus fuscus | 29078 |
eca | ECA | Equus caballus | 9796 |
far | FAR | Festuca arundinacea | 4606 |
fru | FRU | Fugu rubripes | 31033 |
gga | GGA | Gallus gallus | 9031 |
gpy | GPY | Glottidia pyramidata | 34515 |
gma | GMA | Glycine max | 3847 |
gso | GSO | Glycine soja | 3848 |
ggo | GGO | Gorilla gorilla | 9593 |
gar | GAR | Gossypium arboreum | 29729 |
ghb | GHB | Gossypium herbaceum | 34274 |
ghr | GHR | Gossypium hirsutum | 3635 |
gra | GRA | Gossypium raimondii | 29730 |
gsa | GSA | Gyrodactylus salaris | 37629 |
hco | HCO | Haemonchus contortus | 6289 |
hru | HRU | Haliotis rufescens | 6454 |
han | HAN | Helianthus annuus | 4232 |
har | HAR | Helianthus argophyllus | 73275 |
hci | HCI | Helianthus ciliaris | 73280 |
hex | HEX | Helianthus exilis | 400408 |
hpa | HPA | Helianthus paradoxus | 73304 |
hpe | HPE | Helianthus petiolaris | 4234 |
htu | HTU | Helianthus tuberosus | 4233 |
hme | HME | Heliconius melpomene | 34740 |
hbv | VRL | Herpes B virus | 10325 |
hsv1 | VRL | Herpes Simplex Virus 1 | 10298 |
hsv2 | VRL | Herpes Simplex Virus 2 | 10310 |
hvt | VRL | Herpesvirus of turkeys | 37108 |
hvsa | VRL | Herpesvirus saimiri strain A11 | 570519 |
hbr | HBR | Hevea brasiliensis | 3981 |
hhi | HHI | Hippoglossus hippoglossus | 8267 |
hsa | HSA | Homo sapiens | 9606 |
hvu | HVU | Hordeum vulgare | 4513 |
hcmv | VRL | Human cytomegalovirus | 10359 |
hhv6b | VRL | Human herpesvirus 6B | 32604 |
hiv1 | VRL | Human immunodeficiency virus 1 | 11676 |
hma | HMA | Hydra magnipapillata | 6085 |
ipu | IPU | Ictalurus punctatus | 7998 |
iltv | VRL | Infectious laryngotracheitis virus | 10386 |
isc | ISC | Ixodes scapularis | 6945 |
jcv | VRL | JC polyomavirus | 10632 |
kshv | VRL | Kaposi sarcoma-associated herpesvirus | 37296 |
lla | LLA | Lagothrix lagotricha | 9519 |
lca | LCA | Lemur catta | 9447 |
lco | LCO | Leucosolenia complicata | 433461 |
lus | LUS | Linum usitatissimum | 4006 |
lmi | LMI | Locusta migratoria | 7004 |
lgi | LGI | Lottia gigantea | 225164 |
lja | LJA | Lotus japonicus | 34305 |
lva | LVA | Lytechinus variegatus | 7654 |
mml | MML | Macaca mulatta | 9544 |
mne | MNE | Macaca nemestrina | 9545 |
meu | MEU | Macropus eugenii | 9315 |
mdm | MDM | Malus domestica | 3750 |
mse | MSE | Manduca sexta | 7130 |
mes | MES | Manihot esculenta | 3983 |
mdv1 | VRL | Mareks disease virus type 1 | 10390 |
mdv2 | VRL | Mareks disease virus type 2 | 36353 |
mja | MJA | Marsupenaeus japonicus | 27405 |
mtr | MTR | Medicago truncatula | 3880 |
mcv | VRL | Merkel cell polyomavirus | 493803 |
mdo | MDO | Monodelphis domestica | 13616 |
mcmv | VRL | Mouse cytomegalovirus | 10366 |
mghv | VRL | Mouse gammaherpesvirus 68 | 33708 |
mmu | MMU | Mus musculus | 10090 |
ngi | NGI | Nasonia giraulti | 7426 |
nlo | NLO | Nasonia longicornis | 7427 |
nvi | NVI | Nasonia vitripennis | 7425 |
nve | NVE | Nematostella vectensis | 45351 |
nta | NTA | Nicotiana tabacum | 4097 |
odi | ODI | Oikopleura dioica | 34765 |
oha | OHA | Ophiophagus hannah | 8665 |
oan | OAN | Ornithorhynchus anatinus | 9258 |
ocu | OCU | Oryctolagus cuniculus | 9986 |
osa | OSA | Oryza sativa | 4530 |
ola | OLA | Oryzias latipes | 8090 |
oar | OAR | Ovis aries | 9940 |
ppa | PPA | Pan paniscus | 9597 |
ptr | PTR | Pan troglodytes | 9598 |
prd | PRD | Panagrellus redivivus | 6233 |
pgi | PGI | Panax ginseng | 4054 |
pol | POL | Paralichthys olivaceus | 8255 |
pmi | PMI | Patiria miniata | 46514 |
pma | PMA | Petromyzon marinus | 7757 |
pti | PTI | Phaeodactylum tricornutum | 2850 |
pvu | PVU | Phaseolus vulgaris | 3885 |
ppt | PPT | Physcomitrella patens | 3218 |
pin | PIN | Phytophthora infestans | 4787 |
pra | PRA | Phytophthora ramorum | 164328 |
psj | PSJ | Phytophthora sojae | 67593 |
pab | PAB | Picea abies | 3329 |
pde | PDE | Pinus densata | 190402 |
pta | PTA | Pinus taeda | 3352 |
pxy | PXY | Plutella xylostella | 51655 |
ppy | PPY | Pongo pygmaeus | 9600 |
peu | PEU | Populus euphratica | 75702 |
ptc | PTC | Populus trichocarpa | 3694 |
ppc | PPC | Pristionchus pacificus | 54126 |
ppe | PPE | Prunus persica | 3760 |
prv | VRL | Pseudorabies virus | 10345 |
pbi | PBI | Pygathrix bieti | 61621 |
rno | RNO | Rattus norvegicus | 10116 |
rgl | RGL | Rehmannia glutinosa | 99300 |
rlcv | VRL | Rhesus lymphocryptovirus | 45455 |
rrv | VRL | Rhesus monkey rhadinovirus | 703611 |
rmi | RMI | Rhipicephalus microplus | 6941 |
rco | RCO | Ricinus communis | 3988 |
sof | SOF | Saccharum officinarum | 4547 |
ssp | SSP | Saccharum sp. | 15819 |
sko | SKO | Saccoglossus kowalevskii | 10224 |
sla | SLA | Saguinus labiatus | 78454 |
ssa | SSA | Salmo salar | 8030 |
ssl | SSL | Salvia sclarea | 38869 |
sha | SHA | Sarcophilus harrisii | 9305 |
sja | SJA | Schistosoma japonicum | 6182 |
sma | SMA | Schistosoma mansoni | 6183 |
sme | SME | Schmidtea mediterranea | 79327 |
smo | SMO | Selaginella moellendorffii | 88036 |
sv40 | VRL | Simian virus 40 | 10633 |
sly | SLY | Solanum lycopersicum | 4081 |
stu | STU | Solanum tuberosum | 4113 |
sbi | SBI | Sorghum bicolor | 4558 |
smr | SMR | Strigamia maritima | 126957 |
spu | SPU | Strongylocentrotus purpuratus | 7668 |
str | STR | Strongyloides ratti | 34506 |
ssc | SSC | Sus scrofa | 9823 |
sci | SCI | Sycon ciliatum | 27933 |
ssy | SSY | Symphalangus syndactylus | 9590 |
tgu | TGU | Taeniopygia guttata | 59729 |
tre | TRE | Terebratulina retusa | 7580 |
tur | TUR | Tetranychus urticae | 32264 |
tni | TNI | Tetraodon nigroviridis | 99883 |
tcc | TCC | Theobroma cacao | 3641 |
tca | TCA | Tribolium castaneum | 7070 |
tae | TAE | Triticum aestivum | 4565 |
ttu | TTU | Triticum turgidum | 4571 |
tch | TCH | Tupaia chinensis | 246437 |
vun | VUN | Vigna unguiculata | 3917 |
vvi | VVI | Vitis vinifera | 29760 |
xla | XLA | Xenopus laevis | 8355 |
xtr | XTR | Xenopus tropicalis | 8364 |
xbo | XBO | Xenoturbella bocki | 242395 |
zma | ZMA | Zea mays | 4577 |
CentOS7建立FTP站点
ftp站点相对于http站点,具有共享文件方便的特点,经过一段时间的折磨,终于算是弄好了。现简单记录一下其过程,以备忘。
1、安装ftp和vsftpd
rpm -q vsftpd ###查看是否安装vsftpd没有安装的话执行下面的命令
yum -y install vsftpd && ftp
chkconfig vsftpd on #####设置开机启动
2、建立和修改ftp用户
安装ftp后系统内会添加一个名称为ftp的用户,通过”vim /etc/passwd”可以查看到,该用户的默认目录为”/var/ftp”,可以勇冠”usermod -d /home/ftp ftp”可以将ftp的用户目录改为”/home/ftp”,并修改目录权限为不可写”chmod -R 555 /home/ftp”。这个非常必要,否则登录不上,即使在后面的vsftpd.conf中设置了也会登录不上,除非关闭selinux,这是vsftp基于安全的考虑,至于其它的设置方法现在还不是很清楚。修改用户”ftp”的密码,”passwd ftp”,会提示输入新密码,重复输入一次就可以了。
3、配置vsftpd.conf
打开vsftpd.conf”vim /etc/vsftpd/vsftpd.conf”,在后面添加
userlist_file=/etc/vsftpd/vftpuser.txt
virtual_use_local_privs=YES
guest_enable=YES
guest_username=ftp
pasv_enable=YES
pasv_min_port=50000
pasv_max_port=60000
chroot_local_user=YES
chroot_list_enable=YES
chroot_list_file=/etc/vsftpd/chroot_list
并分别在/etc/vsftpd/vftpuser.txt、chroot_list、user_list中添加用户”ftp”(加一行ftp就行),如果不存在上述文件,就先创建后添加。
4、配制防火墙
vi /etc/sysconfig/iptables
添加下面几行
-A INPUT -p icmp -j ACCEPT
-A INPUT -i lo -j ACCEPT
-A OUTPUT -i lo -j ACCEPT
-A INPUT -m state –state ESTABLISHED -j ACCEPT
-A OUTPUT -m state –state ESTABLISHED -j ACCEPT
-P INPUT DROP
-P OUTPUT DROP
-A INPUT -p tcp -m state –state NEW -m tcp –dport 21 -j ACCEPT
-A INPUT -p tcp –dport 50000:60000 -j ACCEPT
-A OUTPUT -p tcp -m state –state NEW -m tcp –dport 21 -j ACCEPT
重新启动iptables和vsftpd就可以了(systemctl restart iptables.service && service vsftpd restart)。
如果是IE浏览器就用”ftp://ftp:密码@你主机的ip地址”登录,添加其它用户只需要创建用户后在vftpuser.txt、chroot_list、user_list中添加相应的用户名就可以了。
怎样向NCBI提交基因序列
当克隆得到一个基因后,就需要对基因信息向NCBI提交,获得一个登录号,以后写文章就可以直接引用登录号,而不需要在文章中列出序列信息,这里主要介绍比较常见的提交DNA和cDNA信息。 继续阅读
perl DBI模块详解
Perl DBI是Perl数据库接口(Perl Database Interface,简称DBI)。通过提供一系列在内部上能够转化成原始调用函数的功能,DBI模块为很多不同的数据库提供了一个统一的接口,包括mysql,Oracle等。
可移植的DBI方法:
connect 建立到一个数据库服务器的连接
disconnect 断开数据库服务器的连接
prepare 准备执行一个SQL语句
继续阅读
mysql 查看索引
查看索引
mysql> show index from tblname;
mysql> show keys from tblname;
· Table
表的名称。
· Non_unique
如果索引不能包括重复词,则为0。如果可以,则为1。
· Key_name
索引的名称。 继续阅读
Bioperl的简单安装
按照Bioperl上介绍的方法在linux下安装Bioperl老是安不上,或者是安装上了,但不能用,上面介绍的几种方法都试了,全不行,后面自己想了个办法,就是利用cpan只对要用到的模块进行单独安装,简单适应,如果你和我碰到了同样的问题不妨试试。
0、用root用户登录,不能由于权限问题,安装不上去。
1、确定cpan能用。
>perl -MCPAN -e shell
cpan>install Bundle::CPAN
cpan>q
2、升级cpan,保证安装的模块是最新的。
>cpan
cpan>install Module::Build
cpan>o conf prefer_installer MB
cpan>o conf commit
cpan>q
3、安装Bioperl最重要的模块SeqIO(该模块可以实现文件格式转换,计算序列长度,blast信息提取等),中间会有些选项要求选择,一路回车采用默认的就行了。
cpan>install Bio::SeqIO
4、安装SeqFeature模块(序列特征信息的获取或解析)。
cpan>install Bio::SeqFeature
5、安装GenBank模块
cpan>install Bio::GenBank
6、安装AlignIO和AlignI模块(数据格式格式转换)。
cpan>install Bio::AlignIO
cpan>install Bio::AlignI
7、安装DNAstatistics模块(序列统计分析,进化距离计算)。
cpan>install Bio::DNAstatistics
上面是一引起常用的模块,至于其它的一些模块如果要用到就按这种方法安装就行了。
利用cpan安装的模块默认路径是当前用户的perl5/lib/perl5目录下面,如/root/perl5/lib/perl5/,如果运行perl -e “use Bio::SeqIO”还是找不到该模块的话,可以将 /当前用户/perl5/lib/perl5/下的文件拷贝到@INC目录中,如/usr/local/lib64/perl5/中,最好也将/当前用户/perl5/bin/中的文件拷贝到/usr/local/bin/perl5中,以后可在那里调用。
linux 安装和使用NCBI剪接边界工具splign
splign是NCBI中一个比对cDNA和genome的一个工具,通过splign可以很方便的找到cDNA各个外显子。Windows下安装非常简单,下载后就可以直接用了,但linux版本下运行需要一些相关的包,下面介绍一下splign在linux下的安装和使用(windows中splign的使用和linux一样)。
首先下载相应的版本,我的linux系统是ubuntu 64位的,下载Linux x64,解压”gunzip splign”,修改文件属性为可执行文件”chomd 777 splign”,试着运行一下”./splign”,一般会报错”splign: error while loading shared libraries: libpcre.so.0: cannot open shared object file: No such file or directory”,那是因为缺少模块 “libpcre.so.0″, 应下载安装pcre包(pcre-8.21)。 继续阅读
最新blast本地化
原来做过本地blast,但那是三年前的事了,这次来新单位后要重新自己构建blast,才发现NCBI中blast已经有了很多变化,默认连接的下载页面变成了blast+,blast+中主要程序描述如下:
Program | Function |
---|---|
blastdbcheck | 检查数据库完整性 |
blastcmd | 从blast数据库中检索序列或其它信息 |
blast_aliastool | 创建数据库别名 |
blastn | 核酸序列与核酸数据库比较 |
blastp | 蛋白质序列与蛋白质数据库比较 |
blastx | 核酸序列与蛋白持数据库比较 |
blast_formatter | 使用指定的ID格式化网络blast结果 |
convert2blastmask | 转换小写的masking成makeblastdb可读格式 |
dustmasker | 过滤掉低重复序列 |
lagacy_blast.pl | 转换一个legacy blast search程序为blast+配对并执行 |
makeblastdb | 格式化一个FASTA文件为一个blast数据库 |
makembindex | 为一个存在的核酸数据库建立一个megablast索引 |
psiblast | 查找蛋白质家族,计算提供的蛋白质的遗传距离或者建立位置特异性矩阵 |
rpsblast | 从一个蛋白质保守区域数据库中检索蛋白序列的功能区域 |
rpsblast | 将核酸序列以六种阅读框的形式转换成蛋白序列后从蛋白保守区域数据库中检索蛋白功能区域 |
segmasker | 过滤掉低重复序列并转换成蛋白序列 |
tblastn | 在核酸数据库中检索蛋白序列 |
tblastx |
核酸与核酸数据库在蛋白质水平比较 |
update_blastdb.pl | 在NCBI中下载blast数据库 |
这个blast+程序虽然功能强大了,但一下子还用不习惯,而且平时用得最多的比较两个序列的程序也没有,于是想找原来的blast,阅读了大量的说明,花了我半天的时间终于找到了,地址为:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/LATEST ,下载与系统匹配的就可以了,一般如果是windows XP 系统就下载win32的,windows 7或windows 8 64位的就下载win64,而我的系统为ubuntu 64位系统就下载了blast-2.2.26-x64-linux.tar.gz,解压后在解压文件的/bin/文件夹就可以看到熟悉的blastall,formatdb,bl2seq等程序了,具体功能描述如下(原始说明):
Program | Function |
---|---|
bl2seq | Directly comparing two FASTA sequences |
blastall | legacy blast containing the subfunction of blastn, blastp, blastx, tblastn, and tblastx |
blastclust | Clusters input FASTA sequences into related groups |
blastpgp | Standalone PSI-BLAST for search of distantly related protein sequences and generate position-specific matrices |
copymat | Copies blastpgp output for input to makemat |
fastacmd | Retrieves specific sequence or dumps the sequences from a formatted blast database |
formatdb | Convert FASTA formatted seqeucne file into BLAST database |
formatrpsdb | Format scoremat files into an RPSBLAST database |
impala | protein profile search program, mostly replaced by rpsblast |
makemat | Convert the copymat files into scoremat format, no loger needed by new blastpgp output |
megablast | Faster batch blastn program that uses greedy-algorithm. Works in contiguous or more sensitive discontiguous mode |
rpsblast | reverse PSI-BLAST program for searching against conserved domain database |
seedtop | Pattern search program |
关于程序调用方法网上有很多资料,就不多在这里重复,这里只举个简单的例子,如调用bl2seq,“./bl2seq -i seq1.fa -j seq2.fa”。
Bioinformatics 2013年4月12日文章列表
引语
以下是《Bioinformatics》2013年4月12日文章列表,不过貌似需要Oxford Journals的权限才能下载到全文。