生物信息数据库大全

生物信息学数据库分类概览
生物与计算机的结合让生物进入大数据时代,为方便管理各种生物数据,科学家们开发了各式各样的生物数据库。了解与自己研究领域相关的数据库,并加以利用可能会使研究工作得到事半功倍的效果。在此将常用数据库按照以下分类方式大致整理了一下,也方便检索。

分类不准或有遗漏的欢迎指出,后续将不断推出更新版本。

目录
Meta databases
Model organism databases
Nucleic acid databases
3.1 DNA databases
3.2 Gene expression databases (mostly microarray data)
3.3 Phenotype databases
3.4 RNA databases
Amino acid / protein databases
4.1 Protein sequence databases
4.2 Protein structure databases
4.3 Protein model databases
4.4 Protein-protein and other molecular interactions
Signal transduction pathway databases
Metabolic pathway and protein function databases
Additional databases
7.1 Exosomal databases
7.2 Mathematical model databases
7.3 Taxonomic databases
7.4 Radiologic databases
Wiki-style databases
Specialized databases
Database

  1. Meta databases
    元数据库,合并不同来源的相关数据以更新的或更加方便的形式提供新的数据,通俗的讲就是数据库的数据库,代表性的数据库主要有以下几个:

ConsensusPathDB
网址:http://consensuspathdb.org/
描述:分子功能互作数据库,基于32个公共数据库,整合了人类蛋白质相互作用,遗传相互作用信号,代谢,基因调控和药物 – 靶标相互作用的信息。

Entrez
网址:https://www.ncbi.nlm.nih.gov/Class/MLACourse/Modules/Entrez/complex_boolean.html
描述:Entrez跨数据库全局查询搜索系统是一个联合搜索引擎或门户网站,允许用户在NCBI网站上搜索许多离散的健康科学数据库。

Neuroscience Information Framework
网址:https://neuinfo.org//
描述:整合了数百种神经科学相关资源,包括实验,临床和转化神经科学数据库,知识库,地图集和遗传/基因组资源等。

GeneCard
网址:https://www.genecards.org/
描述:自动整合125个数据库,包含基因组、转录组、蛋白组、遗传、临床和功能信息的庞大人基因组数据库。

Ensembl Genomes
网址:http://ensemblgenomes.org/
描述:该项目由EMBL运营,提供细菌、原生生物、真菌、植物和无脊椎动物后生动物的基因组数据。

NGS基础 – 参考基因组和基因注释文件
NGS基础 – GTF/GFF文件格式解读和转换
UCSC Genome
网址: http://genome.ucsc.edu
描述:主要是动物基因组信息,基因组注释,基因组保守性和基因组共线性数据。

UCSC XENA – 集大成者(TCGA, ICGC)
UCSC基因组浏览器
Human protein atlas
网址:http://www.proteinatlas.org/
描述:人体蛋白在细胞、组织、病理条件下的表达

ICGC数据库使用

  1. Model organism databases
    模式生物数据库,为深入研究模式生物提供生物数据,如:

Personal Genome Project
网址:https://www.personalgenomes.org/
描述:来自世界各地的100,00名志愿者的人类基因组计划。

Mouse Genome Database(MGD)
网址:http://www.informatics.jax.org/
描述:MGD数据库是整合了国际上实验室小鼠生物数据的资源库,提供小鼠相关的基因组、综合遗传等信息。

Rat Genome Database (RGD):
网址:https://rgd.mcw.edu/
描述:大鼠基因组数据库。

PomBase
网址:https://www.pombase.org/
描述:裂殖酵母Schizosaccharomyces pombe的知识库。

Saccharomyces Genome Database (SGD):
网址:https://www.yeastgenome.org/
描述:酵母模型生物的基因组数据库

TAIR
网址 https://www.arabidopsis.org/
描述:最全的拟南芥资源数据库。政府为我们付费购买了使用权,以至于不少人没感觉到TAIR已经收费了。

Legume Information System (LIS)
网址:https://legumeinfo.org/
描述:豆科植物的基因组数据库。

Wormbase:
网址:https://wormbase.org/#012-34-5
描述:关于线虫模式生物秀丽隐杆线虫的生物学和基因组在线生物数据库,还包含其他相关线虫的信息。

Xenbase:
网址:http://www.xenbase.org/entry/
描述:模式生物非洲爪蟾(Xenopus tropicalis)和非洲爪蟾(Xenopus laevis)的基因组数据库。

Zebrafish Information Network:
网址:http://zfin.org/
描述:斑马鱼的基因组数据库。

FlyBase:
网址:http://flybase.org/
描述:模式生物果蝇的基因组数据库。

UCSC Malaria Genome Browser:
网址:http://enacademic.com/dic.nsf/enwiki/7907997
描述:UCSC疟疾基因组浏览器是研究疟疾(如恶性疟原虫等)基因组的生物信息学研究工具。

  1. Nucleic acid databases
    3.1 DNA databases
    核酸数据库分为一级数据库(Primary databases)和二级数据库(Secondary databases)

3.1.1 一级核酸数据库
下面三个数据库是核酸的主数据库,存储来自所有生物的核酸序列,接受用户提交核酸序列,每天交换更新数据以实现他们之间的最佳同步。

DNA Data Bank of Japan
网址:https://www.ddbj.nig.ac.jp/index-e.html
EMBL (European Bioinformatics Institute)
网址:https://www.embl.org/
NCBI (National Center for Biotechnology Information)
网址:https://www.ncbi.nlm.nih.gov/
生信软件系列 – NCBI使用
如果你经常用PubMed,那么这个插件将非常好用!
一文教会你查找基因的启动子、UTR、TSS等区域以及预测转录因子结合位点
3.1.2 二级核酸数据库
数目很多,先列出一些,欢迎补充:

23andMe’s database
网址:https://www.23andme.com/en-int/
描述:23andMe是一家私营的个人基因组学生物技术公司 ,主要业务是基于唾液对消费者进行基因检测,并向客户提供基因检测报告。

OMIM (Online Mendelian Inheritance in Man):
网址:https://omim.org/
描述:一个管理人类基因和人类遗传疾病特征的数据库。

RefSeq
网址:https://www.ncbi.nlm.nih.gov/refseq/
描述:参考序列数据库收集了从病毒、细菌到真核生物等主要生物的核酸序列(DNA、RNA)及其蛋白质常产物。

1000 Genomes Project:
网址:http://www.internationalgenome.org/
描述:2008年1月启动的项目,对来自不同种族群体的一千多名匿名参与者的基因组进行了分析,并将数据公布于众。

SNP / Disease Databases
网址:https://www.snpedia.com/
描述:人SNP位点对表型的影响和贡献度数据库

3.2 Gene expression databases
这些数据库收集基因组序列,注释并分析他们,以提供公共访问。主要包括:

ArrayExpress
网址:https://www.ebi.ac.uk/arrayexpress/
描述:功能基因组数据存档;存储来自EMBL的高通量功能基因组学实验的数据;展示方式很炫酷。

Bioinformatic Harvester
网址:Ensembl: http://asia.ensembl.org/index.html
描述:为人类,小鼠,其他脊椎动物和真核生物基因组提供自动注释的数据库

BioGPS
网址:http://biogps.org/#goto=welcome
描述:强大的基因和蛋白表达注释平台

Gene Disease Database
基因疾病数据库,通过整理表型-基因型关系和基因-疾病机制,以及多种复合相互作用来理解复杂疾病的潜在机制。主要数据库如下:

5.1 The Comparative Toxicogenomics Database (CTD)
网址:http://ctdbase.org/
5.2 The Universal Protein Resource (UNIPROT)
网址:https://www.uniprot.org
5.3 The Online Mendelian Inheritance in Man
网址:https://www.ncbi.nlm.nih.gov/omim
5.5 The Ensembl genome database project
网址:http://www.ensembl.org/
5.6 The Gene Disease Associations Database DisGeNET
网址:http://www.disgenet.org/

Gene Expression Omnibus (GEO):
网址:https://www.ncbi.nlm.nih.gov/geo/
描述:来自美国国家癌症研究所(NCI)的公共功能基因组数据库,它支持基于阵列和序列的数据,并提供了用于查询和下载基因表达谱的工具。

NGS基础 – 测序原始数据下载
测序文章数据上传找哪里
3.3 Phenotype databases
PHI-base:
网址:http://www.phi-base.org/
描述:病原体 – 宿主相互作用数据库。

细胞表型数据库
网址:https://www.ebi.ac.uk/fg/sym
描述:基于RNAi的细胞表型收集

dbGAP
网址:https://www.ncbi.nlm.nih.gov/gap
描述:基因型-表型数据库,来源于GWAS、医学测序、分子诊断等

The Human Phenotype Ontology
网址:https://hpo.jax.org/app/
描述:人类疾病表型描述的标准化术语,类比于Gene Ontology. 现有13000个条目和156,000关于遗传病的注释。

GWAS central
网址: https://www.gwascentral.org
描述:包含2,974,967个SNP与829个MeSH疾病、表型之间的69,986,326个关联。

European genome-phenome archive
网址:https://ega-archive.org
描述:生物医学研究中涉及的遗传和表型数据关联库

Monarch
网址:https://monarchinitiative.org
描述:基因型-表型数据库,表型相似性度量

Cellular Phenotype Database
网址:http://www.ebi.ac.uk/fg/sym
描述:存储来自高通量表型研究的数据,可以搜索感兴趣的表型并检索相关靶基因和RNAi

GenomeRNAi
网址:http://www.genomernai.org/
描述:包含来自果蝇和人RNA干扰筛选的表型数据库

Genomics of Drug Sensitivity in Cancer
网址:http://www.cancerrxgene.org/
描述:筛选了多种抗癌疗法人类癌细胞系,通过与基因组数据关联以识别药物靶标,同时为临床应用提供信息

GenomeCRISPR
网址:http://genomecrispr.dkfz.de/
描述:用于高通量CRISPR / Cas9筛选实验的数据库

Cellular Microscopy Phenotype Ontology (CMPO)
网址:www.ebi.ac.uk/cmpo/
描述:CMPO为描述与整个细胞、细胞成分、细胞过程和细胞群体有关的表型特性提供了一种物种中立的词汇。

Human Phenotype Ontology (HPO)
网址:https://hpo.jax.org/app/
描述:提供了人类疾病中表型异常的标准化词汇

3.4 RNA databases
miRBase
网址:http://www.mirbase.org/
描述:存储microRNA序列和注释的数据库。

Rfam:
网址:http://rfam.org/
描述:一个包含非编码RNA(ncRNA)家族和其他类型RNA信息的数据库。

RNAcentral
网址:https://rnacentral.org/
描述:非编码RNA序列数据库。

  1. Amino acid / protein databases
    4.1 Protein sequence databases
    Swiss-Prot/Uniprot
    网址:https://www.uniprot.org/
    描述:结合了从文献中提取的信息和生物鉴定者评估的计算分析,是一个手动注释的非冗余蛋白质序列数据库。

Database of Interacting Proteins (Univ. of California)
网址:https://dip.doe-mbi.ucla.edu/dip/Main.cgi
描述:记录了实验确定的蛋白质之间的相互作用。

DisProt:(打不开了)
网址:http://www.disprot.org/
描述:用于注释文献中的蛋白固有无序区域(IDRs)

2018Cell系列最好的调控方式-相变,最强综述,未来以来,你在哪
InterPro:
网址:https://www.ebi.ac.uk/interpro/
描述:通过整合多个蛋白相关数据库,提供了一个方便的对蛋白序列进行功能注释的平台,包括对蛋白质家族、结构域、功能位点的预测。

MobiDB:
网址:http://mobidb.bio.unipd.it/
描述:内在蛋白质紊乱注释数据库。

neXtProt:
网址:https://www.nextprot.org/
描述:人类蛋白质数据库。

Pfam:
网址:http://pfam.xfam.org/
描述:Pfam是蛋白质家族的数据库,包括使用隐马尔可夫模型生成的注释和多序列比对。

PRINTS
网址:http://130.88.97.239/PRINTS/index.php
描述:蛋白质序列指纹图谱数据库,所谓蛋白质的指纹是指一组保守的序列基序,用于刻画蛋白质家族的特征。

PROSITE:
网址:https://prosite.expasy.org/
描述:收集了有显著生物学意义的蛋白质位点和序列模式,并能根据这些位点和模式快速并可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。

Protein Information Resource
网址:https://pir.georgetown.edu/
描述:是一个全面的、经过注释的、非冗余的蛋白质序列数据库。可帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。

SUPERFAMILY:
网址:http://supfam.org/SUPERFAMILY/
描述:一个包含所有蛋白质和基因组结构和功能注释的数据库。

4.2 Protein structure databases
Protein Data Bank (PDB)
网址:http://www.rcsb.org
描述:一个专门收录蛋白质及核酸的三维结构资料的数据库,以下为PDB成员网站
1.1 Protein DataBank in Europe (PDBe):https://www.ebi.ac.uk/pdbe/
1.2 ProteinDatabank in Japan (PDBj):https://pdbj.org
1.3 Research Collaboratory for Structural Bioinformatics (RCSB):https://www.rcsb.org
1.4 Worldwide Protein Data Bank:http://www.wwpdb.org/

The Protein Protein Interaction Inhibition Database (2PI2db):
网址:http://2p2idb.cnrs-mrs.fr
描述:收集了已通过X射线晶体学或核磁共振表征的蛋白质-蛋白质、蛋白质-调节剂复合物结构。

4.3 Protein model databases
ModBase:
网址:https://modbase.compbio.ucsf.edu/modbase-cgi/index.cgi
描述:一个注释比较饭白纸结构模型的数据库。

Protein Model Portal (PMP):
网址:https://www.proteinmodelportal.org
描述:结合了数个蛋白质结构模型数据库的元数据库,提供模型构建和质量评估等多种交互式服务。

Similarity Matrix of Proteins (SIMAP):
网址:http://cube.univie.ac.at/resources/simap
描述:基于FASTA序列计算的蛋白质相似性数据库。

Swiss-model:
网址:https://swissmodel.expasy.org
描述:致力于同源蛋白质的3D结构建模。

4.4 Protein-protein and other molecular interactions
BioGRID
网址:https://thebiogrid.org
描述:蛋白质与遗传相互作用数据库。

string
网址:http://string-db.org/cgi/help.pl?subpage=api
描述:用于检索相互作用基因/蛋白质的搜索工具

IntAct
网址:https://www.ebi.ac.uk/intact/
描述:为分子交互研究提供免费的开源数据库系统和分析工具。

  1. Signal transduction pathway databases
    NCI-Nature Pathway Interaction Database
    网址:http://biogps.org/plugin/259/nci-nature-pathway-interaction-database/
    描述:http://www.ndexbio.org/#/ (原来的PID迁移到此新数据库)。
    NDEx提供了一个开源框架,科学家和机构可以共享、存储、操作和发布生物网络知识。

Netpath
网址:http://www.netpath.org/
描述:人类信号转导通路数据库,拥有45个信号通路,包括在免疫系统调节和癌症调节中起主要作用的通路。

Reactome
网址:https://reactome.org/
描述:该库覆盖了19个物种的通路研究,包括经典的代谢通路、信号转导、基因转录调控、细胞凋亡与疾病。

reactome相关推文:

生物AI插图素材获取和拼装指导
没钱买KEGG怎么办?REACTOME开源通路更强大
WikiPathways
网址:https://www.wikipathways.org/index.php/WikiPathways
描述:该数据库收录了超过20个物种的通路,其中人类的通路就包含了800多个通路,涵盖了约7500种基因。此外,它还包含了超过1000个代谢产物的通路。

  1. Metabolic pathway and protein function databases
    代谢途径和蛋白质功能数据库

BiGG Models
网址:http://bigg.ucsd.edu
描述:该数据库将70多种已发表的基因组规模的代谢网络整合到了一起,并且有一组标准化的BiGG ID。

BioCyc Database Collection:
网址:https://biocyc.org
描述:收集了14558个通路/基因组数据库,每一个数据库描述了单个有机体的基因组和代谢通路,同时提供多种用于组学数据导航和可视化的分析工具。

BRENDA:
网址:http://www.brenda-enzymes.org
描述:酶数据库,提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。

HMDB
网址:http://www.hmdb.ca
描述:人类代谢组数据库,包含有关人体中发现的小分子代谢物的详细信息。

KEGG PATHWAY Database
网址:https://www.kegg.jp
描述:KEGG是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。

Reactome(同上)

WikiPathways(同上)

  1. Additional databases
    7.1 Exosomal databases
    外泌体是一类可以由多种细胞类型分泌的胞外囊泡,与其他胞外囊泡如核外颗粒体和凋亡小体不同,外泌体是内吞起源的。外泌体在疫苗、药物递送、细胞间通信的作用以及其作为生物标志物的一种可能来源以及引起了研究人员的极大兴趣,导致外泌体相关研究呈现井喷趋势。相关数据库如下:

ExoCarta
网址:http://www.exocarta.org
描述:是一个关于外泌体蛋白、RNA、脂质体的手工数据库。

exoRBase
网址:http://www.exorbase.org
描述:将不同疾病血来源外泌体中的circRNA, lncRNA和mRNA进行整理的数据库。

7.2 Mathematical model databases
Biomodels Database
网址:http://biomodels.caltech.edu
描述:生物模型在线数据库,主要存储数量型生物化学模型。
7.3 Taxonomic databases
BacDive
网址:https://bacdive.dsmz.de
描述:提供有关细菌和古细菌生物多样性的菌株相关信息。

EzTaxon-e
网址:https://www.ezbiocloud.net
描述:基于16S核糖体RNA基因序列鉴定原核生物的数据库。

7.4 Radiologic databases
The Cancer Imaging Archive (TCIA)
网址:http://www.cancerimagingarchive.net
描述:包含常见肿瘤(肺癌、前列腺癌等)医学图像(MRI、CT等)及相应临床信息(治疗方案细节、基因、病理等)的大规模公用数据库。

Neuroimaging Informatics Tools and Resources Clearinghouse
网址:https://www.nitrc.org
描述:神经影像信息学工具和资源交换中心。

  1. Wiki-style databases
    Gene Wiki
    网址:https://en.wikipedia.org/wiki/Wikipedia:Gene_Wiki
    描述:一个基于wiki的基因信息数据库
  2. Specialized databases
    Barcode of Life Data Systems
    网址:http://www.boldsystems.org
    描述:DNA条形码数据库(即生物体内能够代表该物种的、标准的、有足够变异的、易扩增且相对较短的DNA片段),并提供一个分析DNA序列的在线平台。

The Cancer Genome Atlas (TCGA)
网址:https://cancergenome.nih.gov
描述:提供使用高通量技术获得的癌症样本数据,包括基因表达谱、拷贝数变异、SNP基因分型、全基因组DNA甲基化等。

Cellosaurus
网址:https://web.expasy.org/cellosaurus/
描述:细胞系的在线资源库。

Comparative Toxicogenomics Database (CTD)
网址:http://ctdbase.org
描述:CTD(比较毒物遗传数据库),为研究人员提供了集中、综合的各种不同类型分子以及来自各种生物体的毒理学数据。

DiProDB
网址:http://diprodb.fli-leibniz.de
描述:收集和分析热力学,结构和其他二核苷酸特性的数据库。

Dryad
网址:http://datadryad.org
描述:存放优质数据资源的场所,使科学出版物背后的数据可被发现、可重复使用、可引用。

Edinburgh Mouse Atlas
网址:http://www.emouseatlas.org/emap/home.html
描述:小鼠胚胎原位基因表达数据库。

EPD Eukaryotic Promoter Database
网址:https://epd.vital-it.ch/index.php
描述:真核基因启动子数据库,提供从EMBL中得到的真核基因的启动子序列,帮助实验研究人员、生物信息学研究人员分析真核基因的转录信号。

FINDbase (the Frequency of INherited Disorders database)
网址:http://www.findbase.org
描述:是一个全球治病遗传变异频率的数据库。

HGNC (HUGO Gene Nomenclature Committee):
网址:https://www.genenames.org
描述:负责对人类基因组包括蛋白编码基因, ncRNA基因,甲基因和其他基因在内的所有基因提供一个唯一的、标准的、可以广泛传播的symbol

International Human Epigenome Consortium
网址:http://ihec-epigenomes.org
描述:国际人类表观基因组学会,致力于全球表观基因组学领域的发展。

MethBase
网址:http://smithlabresearch.org/software/methbase/
描述:在UCSC Genome Browser上可视化的DNA甲基化数据库。

Minimotif Miner
网址:http://minimotifminer.org/
描述:短连续功能性肽基序的数据库。

NCI-dbGaP
网址:https://www.ncbi.nlm.nih.gov/gap
描述:人类基因型和表型相互作用的数据库。

PubMed
网址: https://www.ncbi.nlm.nih.gov/pmc/
描述:生命科学和生物医学领域的参考和摘要。

Oncogenomic databases
网址:https://oglandscapes.irbbarcelona.org
描述:用于癌症研究的数据库汇编。

RIKEN integrated database of mammals
网址:http://metadb.riken.jp/metadb/download/SciNetS_ria254i
描述:Riken研究所推广的多个大型项目的综合数据库。

TDR Targets
网址:http://tdrtargets.org
描述:专注于热带疾病药物发现的化学基因组学数据库。

LNCipedia
网址:http://www.lncipedia.org/
描述:人类长链非编码RNA的整合库

NONCODE
网址: http://www.noncode.org/
描述:存储17类(人类,小鼠,牛,大鼠,鸡,果蝇,斑马鱼,小肠,酵母,拟南芥,黑猩猩,大猩猩,猩猩,恒河猴,负鼠和猪)物种非编码RNA(不包括tRNA和rRNA)的数据库

Oncomine
网址:https://www.oncomine.org/resource/login.html
描述:肿瘤相关基因研究的数据库,整合了GEO、TCGA和已发表的文献等来源的RNA和DNA-seq数据

GeneVestigator(GV)
网址:https://genevestigator.com/
描述:一个基因表达的搜索引擎,集成了上万的人工精选、注释的公共芯片实验结果

immuneXpresso
网址:http://immuneexpresso.org/immport-immunexpresso/public/immunexpresso/search

主要部分转载自( https://blog.csdn.net/qazplm12_3/article/details/83014648 ),主要针对动物方面的,关于植物方面的数据库我将结合这么多年的经历再整理出一部分。

Aspera从NCBI下载数据

如果要从NCBI下载大数据,单纯用FTP下载工具根本不够用了,还在NCBI提供了一款下载神器Aspera,试着用了一下,效果非常好,我6M的宽带速度可以达到5M/s,现简要介绍一下使用方法和遇到的问题。
1、下载
下载地址为:http://downloads.asperasoft.com/en/downloads/8?list
先点击操作系统的图标,在下拉框中就出现了相应的操作系统,再点下拉框右边那个小三角形,选择要下载的版本,然后点左边的”Download”图标就可以下载了。这个设计的真心有问题,反正我点了操作系统后,怎么也没找到下载的图标,后面还是不经意间点了那个下拉框后才出现。
2、安装
Windowns下直接双击下载的文件,linux下运行“ sh aspera-connect-xx-linux-64.sh ”,安装完成后在当前目录会找不到安装文件,其实是安装在当前用户的根目录下了,linux安装文件为隐藏文件“/home/用户/.aspera/”。windows中会出现在开始菜单里,具体的配置可以参考“ http://boyun.sh.cn/bio/?p=1933 ”的介绍。
3、使用
如果是批量下载,将要下载的文件链接存入一个文件,例如我要下载所有植物参考蛋白数据,先在NCBI FTP中找到所在目录,将要下载的文件路径存入文件plant_protein_seq_file_list.txt,格式如下/refseq/release/plant/plant.1.protein.faa.gz,每个文件一行,然后运行

/home/用户/.aspera/connect/bin/ascp -k 1 -QT -l 100M  -i /home/用户/.aspera/connect/etc/asperaweb_id_dsa.openssh --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp   --file-list plant_protein_seq_file_list.txt   ./

具体各参数的意思可以运行/home/用户/.aspera/connect/bin/ascp –help查看软件自带的说明。
备注:
(1)将“用户”换成当前使用的用户名。
(2)如果使用asperaweb_id_dsa.putty会出现要输入密码的情况,建议换成asperaweb_id_dsa.openssh,反正我找了半天都没有找到密码。
(3)“./”表示的是下载的输出目录为当前目录,也可以换成其它的目录。
如果是单独下载一个文件,运行

/home/用户/.aspera/connect/bin/ascp -k 1 -QT -l 100M -i /home/用户/.aspera/connect/etc/asperaweb_id_dsa.openssh -T anonftp@ftp-private.ncbi.nlm.nih.gov:/refseq/release/plant/plant.1.protein.faa.gz ./

centOS7 安装mysql5.7

mysql5.7相比较mysql5.6而言,有很大进步,特别对于安装来说,要简单得多。现将方法简介而下。
前两步和安装mysql5.6相同。
1、卸载mariadb
rpm -e mariadb-libs-5.5.37-1.el7_0.x86_64
###会提示错误:依赖检测失败
###加上–nodeps参数强制卸载
rpm -e –nodeps mariadb-libs-5.5.37-1.el7_0.x86_64
如果找不到就用yum -y remove mariadb-libs.x86_64
2、下载mysql5.7
进入mysql下载官网,点击左上方的“Community”,选择平台“Red Hat Enterprise Linux”,下载此版本下的mysql-5.7.11-1.el7.x86_64.rpm-bundle.tar(大小为520.7M),如果点击Download会提示你要先登录Oracle帐户,如果没有帐户或者不想登录,可以点击下方的“No thanks,just start my download”,也可一个FTP站点下载,里面包含了几乎所有的mysql版本。
3、安装
解压:tar xvf mysql-5.7.11-1.el7.x86_64.rpm-bundle.tar ,先安装“rpm -ivh mysql-community-common-5.7.11-1.el7.x86_64.rpm”,然后“mysql-community-libs-5.7.11-1.el7.x86_64.rpm”,再“mysql-community-client-5.7.11-1.el7.x86_64.rpm”,“mysql-community-devel-5.7.11-1.el7.x86_64.rpm”,最后“mysql-community-server-5.7.11-1.el7.x86_64.rpm”。
安装后mysql的主要文件如下:
MySQL Installation Layout for Linux RPM Packages from the MySQL Developer Zone

Files or Resources Location
Client programs and scripts /usr/bin
mysqld server /usr/sbin
Configuration file /etc/my.cnf
Data directory /var/lib/mysql
Error log file For RHEL, Oracle Linux, CentOS or Fedora platforms: /var/log/mysqld.log

For SLES: /var/log/mysql/mysqld.log

Value of secure_file_priv /var/lib/mysql-files
System V init script For RHEL, Oracle Linux, CentOS or Fedora platforms: /etc/init.d/mysqld

For SLES: /etc/init.d/mysql

Systemd service For RHEL, Oracle Linux, CentOS or Fedora platforms: mysqld

For SLES: mysql

Pid file /var/run/mysql/mysqld.pid
Socket /var/lib/mysql/mysql.sock
Keyring directory /var/lib/mysql-keyring
Unix manual pages /usr/share/man
Include (header) files /usr/include/mysql
Libraries /usr/lib/mysql
Miscellaneous support files (for example, error messages, and character set files) /usr/share/mysql

3、初始化
切换到root用户,启动服务“service mysqld start”,找到root用户的初始密码“grep ‘temporary password’ /var/log/mysqld.log”,用找到的密码登录root用户“mysql -uroot -p ”,改密码“mysql> ALTER USER ‘root’@’localhost’ IDENTIFIED BY ‘yourpasswd’; ”。

Blast+本地化及使用方法

原来一直用blast的,但NCBI已停止了对blast的更新,而强力推荐使用blast+,这次因为要做blast的数据量比较大,所以试了一下blast+,同时也用blast做了一下,发现blast+果然要快得多,看来习惯要改变了。其实blast+和blast的原理差不多,只不过程序参数和名称有了点变化而已,现简要介绍一下其本地化的方法:
1、下载最新版的程序,根据自己的系统选择合适的版本。
2、解压后进入程序目录……ncbi-blast-2.2.31+/bin,各个程序的功能说明可以参考我的另外一篇博客
3、各程序的参数说明可以用自带的help,例如想查blastx的参数说明可以用: ./blastx -help
4、做blast前一般要先格式化数据库,除非只是几个序列之间的比对,例如格式化一个蛋白数据库可以用下列参数:
$HOME/……/ncbi-blast-2.2.31+/bin/makeblastdb -in uniprot_sport -dbtype prot -input_type fasta -parse_seqids -hash_index
主要几个程序的使用例子:
blastp -query protein.fa -out /protein.output -db dbname -outfmt 0 -evalue 1e-3 -max_target_seqs 20
blastn -query nucl.fa -out output -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
blastx -query nucl.fa -out output -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
参数说明:
-query: 输入文件路径及文件名
-out:输出文件路径及文件名
-db:格式化了的数据库路径及数据库名
-outfmt:输出文件格式,2.2.31版共有14种格式,6是tabular格式对应BLAST的m8格式
-evalue:设置输出结果的e-value值
-max_target_seqs:找到的最大的目标的数目,也可用-num_descriptions,tabular格式输出结果的条数

最新miRBase物种及其编号(二)

organism division name NCBI-taxid
aau AAU Acacia auriculiformis 205027
amg AMG Acacia mangium 224085
api API Acyrthosiphon pisum 7029
aae AAE Aedes aegypti 7159
ata ATA Aegilops tauschii 37682
atr ATR Amborella trichopoda 13333
aqu AQU Amphimedon queenslandica 400682
aca ACA Anolis carolinensis 28377
aga AGA Anopheles gambiae 7165
ame AME Apis mellifera 7460
aqc AQC Aquilegia caerulea 218851
aly ALY Arabidopsis lyrata 59689
ath ATH Arabidopsis thaliana 3702
ahy AHY Arachis hypogaea 3818
aja AJA Artibeus jamaicensis 9417
asu ASU Ascaris suum 6253
age AGE Ateles geoffroyi 9509
ama AMA Avicennia marina 82927
bpcv1 VRL Bandicoot papillomatosis carcinomatosis virus type 1 479058
bpcv2 VRL Bandicoot papillomatosis carcinomatosis virus type 2 500654
bkv VRL BK polyomavirus 10629
bmo BMO Bombyx mori 7091
bta BTA Bos taurus 9913
bfv VRL Bovine foamy virus 207343
bhv1 VRL Bovine herpesvirus 1 10320
bhv5 VRL Bovine herpesvirus 5 35244
blv VRL Bovine leukemia virus 11901
bdi BDI Brachypodium distachyon 15368
bbe BBE Branchiostoma belcheri 7741
bfl BFL Branchiostoma floridae 7739
bna BNA Brassica napus 3708
bol BOL Brassica oleracea 3712
bra BRA Brassica rapa 3711
bma BMA Brugia malayi 6279
bcy BCY Bruguiera cylindrica 106616
bgy BGY Bruguiera gymnorhiza 39984
cbn CBN Caenorhabditis brenneri 135651
cbr CBR Caenorhabditis briggsae 6238
cel CEL Caenorhabditis elegans 6239
crm CRM Caenorhabditis remanei 31234
cfa CFA Canis familiaris 9615
cte CTE Capitella teleta 283909
chi CHI Capra hircus 9925
cpa CPA Carica papaya 3649
cla CLA Cerebratulus lacteus 6221
cre CRE Chlamydomonas reinhardtii 3055
cin CIN Ciona intestinalis 7719
csa CSA Ciona savignyi 51511
ccl CCL Citrus clementina 85681
crt CRT Citrus reticulata 85571
csi CSI Citrus sinensis 2711
ctr CTR Citrus trifoliata 37690
cgr CGR Cricetulus griseus 10029
cme CME Cucumis melo 3656
cqu CQU Culex quinquefasciatus 7176
cln CLN Cunninghamia lanceolata 28977
cca CCA Cynara cardunculus 4265
ccr CCR Cyprinus carpio 7962
dre DRE Danio rerio 7955
dpu DPU Daphnia pulex 6669
ddi DDI Dictyostelium discoideum 44689
dpr DPR Digitalis purpurea 4164
dan DAN Drosophila ananassae 7217
der DER Drosophila erecta 7220
dgr DGR Drosophila grimshawi 7222
dme DME Drosophila melanogaster 7227
dmo DMO Drosophila mojavensis 7230
dpe DPE Drosophila persimilis 7234
dps DPS Drosophila pseudoobscura 7237
dse DSE Drosophila sechellia 7238
dsi DSI Drosophila simulans 7240
dvi DVI Drosophila virilis 7244
dwi DWI Drosophila willistoni 7260
dya DYA Drosophila yakuba 7245
dev VRL Duck enteritis virus 104388
egr EGR Echinococcus granulosus 6210
emu EMU Echinococcus multilocularis 6211
esi ESI Ectocarpus siliculosus 2880
egu EGU Elaeis guineensis 51953
ebv VRL Epstein Barr virus 10376
efu EFU Eptesicus fuscus 29078
eca ECA Equus caballus 9796
far FAR Festuca arundinacea 4606
fru FRU Fugu rubripes 31033
gga GGA Gallus gallus 9031
gpy GPY Glottidia pyramidata 34515
gma GMA Glycine max 3847
gso GSO Glycine soja 3848
ggo GGO Gorilla gorilla 9593
gar GAR Gossypium arboreum 29729
ghb GHB Gossypium herbaceum 34274
ghr GHR Gossypium hirsutum 3635
gra GRA Gossypium raimondii 29730
gsa GSA Gyrodactylus salaris 37629
hco HCO Haemonchus contortus 6289
hru HRU Haliotis rufescens 6454
han HAN Helianthus annuus 4232
har HAR Helianthus argophyllus 73275
hci HCI Helianthus ciliaris 73280
hex HEX Helianthus exilis 400408
hpa HPA Helianthus paradoxus 73304
hpe HPE Helianthus petiolaris 4234
htu HTU Helianthus tuberosus 4233
hme HME Heliconius melpomene 34740
hbv VRL Herpes B virus 10325
hsv1 VRL Herpes Simplex Virus 1 10298
hsv2 VRL Herpes Simplex Virus 2 10310
hvt VRL Herpesvirus of turkeys 37108
hvsa VRL Herpesvirus saimiri strain A11 570519
hbr HBR Hevea brasiliensis 3981
hhi HHI Hippoglossus hippoglossus 8267
hsa HSA Homo sapiens 9606
hvu HVU Hordeum vulgare 4513
hcmv VRL Human cytomegalovirus 10359
hhv6b VRL Human herpesvirus 6B 32604
hiv1 VRL Human immunodeficiency virus 1 11676
hma HMA Hydra magnipapillata 6085
ipu IPU Ictalurus punctatus 7998
iltv VRL Infectious laryngotracheitis virus 10386
isc ISC Ixodes scapularis 6945
jcv VRL JC polyomavirus 10632
kshv VRL Kaposi sarcoma-associated herpesvirus 37296
lla LLA Lagothrix lagotricha 9519
lca LCA Lemur catta 9447
lco LCO Leucosolenia complicata 433461
lus LUS Linum usitatissimum 4006
lmi LMI Locusta migratoria 7004
lgi LGI Lottia gigantea 225164
lja LJA Lotus japonicus 34305
lva LVA Lytechinus variegatus 7654
mml MML Macaca mulatta 9544
mne MNE Macaca nemestrina 9545
meu MEU Macropus eugenii 9315
mdm MDM Malus domestica 3750
mse MSE Manduca sexta 7130
mes MES Manihot esculenta 3983
mdv1 VRL Mareks disease virus type 1 10390
mdv2 VRL Mareks disease virus type 2 36353
mja MJA Marsupenaeus japonicus 27405
mtr MTR Medicago truncatula 3880
mcv VRL Merkel cell polyomavirus 493803
mdo MDO Monodelphis domestica 13616
mcmv VRL Mouse cytomegalovirus 10366
mghv VRL Mouse gammaherpesvirus 68 33708
mmu MMU Mus musculus 10090
ngi NGI Nasonia giraulti 7426
nlo NLO Nasonia longicornis 7427
nvi NVI Nasonia vitripennis 7425
nve NVE Nematostella vectensis 45351
nta NTA Nicotiana tabacum 4097
odi ODI Oikopleura dioica 34765
oha OHA Ophiophagus hannah 8665
oan OAN Ornithorhynchus anatinus 9258
ocu OCU Oryctolagus cuniculus 9986
osa OSA Oryza sativa 4530
ola OLA Oryzias latipes 8090
oar OAR Ovis aries 9940
ppa PPA Pan paniscus 9597
ptr PTR Pan troglodytes 9598
prd PRD Panagrellus redivivus 6233
pgi PGI Panax ginseng 4054
pol POL Paralichthys olivaceus 8255
pmi PMI Patiria miniata 46514
pma PMA Petromyzon marinus 7757
pti PTI Phaeodactylum tricornutum 2850
pvu PVU Phaseolus vulgaris 3885
ppt PPT Physcomitrella patens 3218
pin PIN Phytophthora infestans 4787
pra PRA Phytophthora ramorum 164328
psj PSJ Phytophthora sojae 67593
pab PAB Picea abies 3329
pde PDE Pinus densata 190402
pta PTA Pinus taeda 3352
pxy PXY Plutella xylostella 51655
ppy PPY Pongo pygmaeus 9600
peu PEU Populus euphratica 75702
ptc PTC Populus trichocarpa 3694
ppc PPC Pristionchus pacificus 54126
ppe PPE Prunus persica 3760
prv VRL Pseudorabies virus 10345
pbi PBI Pygathrix bieti 61621
rno RNO Rattus norvegicus 10116
rgl RGL Rehmannia glutinosa 99300
rlcv VRL Rhesus lymphocryptovirus 45455
rrv VRL Rhesus monkey rhadinovirus 703611
rmi RMI Rhipicephalus microplus 6941
rco RCO Ricinus communis 3988
sof SOF Saccharum officinarum 4547
ssp SSP Saccharum sp. 15819
sko SKO Saccoglossus kowalevskii 10224
sla SLA Saguinus labiatus 78454
ssa SSA Salmo salar 8030
ssl SSL Salvia sclarea 38869
sha SHA Sarcophilus harrisii 9305
sja SJA Schistosoma japonicum 6182
sma SMA Schistosoma mansoni 6183
sme SME Schmidtea mediterranea 79327
smo SMO Selaginella moellendorffii 88036
sv40 VRL Simian virus 40 10633
sly SLY Solanum lycopersicum 4081
stu STU Solanum tuberosum 4113
sbi SBI Sorghum bicolor 4558
smr SMR Strigamia maritima 126957
spu SPU Strongylocentrotus purpuratus 7668
str STR Strongyloides ratti 34506
ssc SSC Sus scrofa 9823
sci SCI Sycon ciliatum 27933
ssy SSY Symphalangus syndactylus 9590
tgu TGU Taeniopygia guttata 59729
tre TRE Terebratulina retusa 7580
tur TUR Tetranychus urticae 32264
tni TNI Tetraodon nigroviridis 99883
tcc TCC Theobroma cacao 3641
tca TCA Tribolium castaneum 7070
tae TAE Triticum aestivum 4565
ttu TTU Triticum turgidum 4571
tch TCH Tupaia chinensis 246437
vun VUN Vigna unguiculata 3917
vvi VVI Vitis vinifera 29760
xla XLA Xenopus laevis 8355
xtr XTR Xenopus tropicalis 8364
xbo XBO Xenoturbella bocki 242395
zma ZMA Zea mays 4577

CentOS7建立FTP站点

ftp站点相对于http站点,具有共享文件方便的特点,经过一段时间的折磨,终于算是弄好了。现简单记录一下其过程,以备忘。
1、安装ftp和vsftpd
rpm -q vsftpd ###查看是否安装vsftpd没有安装的话执行下面的命令
yum -y install vsftpd && ftp
chkconfig vsftpd on #####设置开机启动

2、建立和修改ftp用户
安装ftp后系统内会添加一个名称为ftp的用户,通过”vim /etc/passwd”可以查看到,该用户的默认目录为”/var/ftp”,可以勇冠”usermod -d /home/ftp ftp”可以将ftp的用户目录改为”/home/ftp”,并修改目录权限为不可写”chmod -R 555 /home/ftp”。这个非常必要,否则登录不上,即使在后面的vsftpd.conf中设置了也会登录不上,除非关闭selinux,这是vsftp基于安全的考虑,至于其它的设置方法现在还不是很清楚。修改用户”ftp”的密码,”passwd ftp”,会提示输入新密码,重复输入一次就可以了。

3、配置vsftpd.conf
打开vsftpd.conf”vim /etc/vsftpd/vsftpd.conf”,在后面添加
userlist_file=/etc/vsftpd/vftpuser.txt
virtual_use_local_privs=YES
guest_enable=YES
guest_username=ftp
pasv_enable=YES
pasv_min_port=50000
pasv_max_port=60000
chroot_local_user=YES
chroot_list_enable=YES
chroot_list_file=/etc/vsftpd/chroot_list
并分别在/etc/vsftpd/vftpuser.txt、chroot_list、user_list中添加用户”ftp”(加一行ftp就行),如果不存在上述文件,就先创建后添加。

4、配制防火墙
vi /etc/sysconfig/iptables
添加下面几行
-A INPUT -p icmp -j ACCEPT
-A INPUT -i lo -j ACCEPT
-A OUTPUT -i lo -j ACCEPT
-A INPUT -m state –state ESTABLISHED -j ACCEPT
-A OUTPUT -m state –state ESTABLISHED -j ACCEPT
-P INPUT DROP
-P OUTPUT DROP
-A INPUT -p tcp -m state –state NEW -m tcp –dport 21 -j ACCEPT
-A INPUT -p tcp –dport 50000:60000 -j ACCEPT
-A OUTPUT -p tcp -m state –state NEW -m tcp –dport 21 -j ACCEPT

重新启动iptables和vsftpd就可以了(systemctl restart iptables.service && service vsftpd restart)。
如果是IE浏览器就用”ftp://ftp:密码@你主机的ip地址”登录,添加其它用户只需要创建用户后在vftpuser.txt、chroot_list、user_list中添加相应的用户名就可以了。

perl DBI模块详解

Perl DBI是Perl数据库接口(Perl Database Interface,简称DBI)。通过提供一系列在内部上能够转化成原始调用函数的功能,DBI模块为很多不同的数据库提供了一个统一的接口,包括mysql,Oracle等。
可移植的DBI方法:
connect 建立到一个数据库服务器的连接
disconnect 断开数据库服务器的连接
prepare 准备执行一个SQL语句
继续阅读

Bioperl的简单安装

按照Bioperl上介绍的方法在linux下安装Bioperl老是安不上,或者是安装上了,但不能用,上面介绍的几种方法都试了,全不行,后面自己想了个办法,就是利用cpan只对要用到的模块进行单独安装,简单适应,如果你和我碰到了同样的问题不妨试试。
0、用root用户登录,不能由于权限问题,安装不上去。
1、确定cpan能用。
>perl -MCPAN -e shell
cpan>install Bundle::CPAN
cpan>q
2、升级cpan,保证安装的模块是最新的。
>cpan
cpan>install Module::Build
cpan>o conf prefer_installer MB
cpan>o conf commit
cpan>q
3、安装Bioperl最重要的模块SeqIO(该模块可以实现文件格式转换,计算序列长度,blast信息提取等),中间会有些选项要求选择,一路回车采用默认的就行了。
cpan>install Bio::SeqIO
4、安装SeqFeature模块(序列特征信息的获取或解析)。
cpan>install Bio::SeqFeature
5、安装GenBank模块
cpan>install Bio::GenBank
6、安装AlignIO和AlignI模块(数据格式格式转换)。
cpan>install Bio::AlignIO
cpan>install Bio::AlignI
7、安装DNAstatistics模块(序列统计分析,进化距离计算)。
cpan>install Bio::DNAstatistics

上面是一引起常用的模块,至于其它的一些模块如果要用到就按这种方法安装就行了。
利用cpan安装的模块默认路径是当前用户的perl5/lib/perl5目录下面,如/root/perl5/lib/perl5/,如果运行perl -e “use Bio::SeqIO”还是找不到该模块的话,可以将 /当前用户/perl5/lib/perl5/下的文件拷贝到@INC目录中,如/usr/local/lib64/perl5/中,最好也将/当前用户/perl5/bin/中的文件拷贝到/usr/local/bin/perl5中,以后可在那里调用。