NCBI测序原始数据上传

具体操作可以参照这篇博客,这里只补充几点。

1、申请登录号顺序

建议首先申请Biosample号,再申请BioProject号,最后申请SRA号。在第二步的过程中只需要填写第一个Biosample号就可以了。也可以先申请BioProject号,Biosample号先空着,再申请Biosample号,然后在填表中”bioproject_accession”填上申请的BioProject号就可以了。

2、填表的疑问

遇到最多的问题就是sample_name通不过,按照参考中的方法在最后添加一列“replicate”,然后填上对应的replicate描述就可以了。在填写“collection_date”时也应注意要使用标准日期格式,如“2021-07-01”,不能把月份和日期前面的0省略。“geo_loc_name”这栏填写上传样品基因型的位置,国家要采用标准的国家名称,后面跟冒号和省份,也可以不加。

在填写”SRA_metadata_acc”表时,”library_ID”可以自己编一个,不能重复,”title” 填写样品描述信息,可以采用如以下格式“RNA-Seq of organism: cultivar tissue”,“design_description”可以填写实验设计时的信息,如”control,replication 1″,”Treatment,replication 1″。

3、测序原始数据上传

建议使用Aspera上传,特别是数据量比较大时。可以参考这篇文章的方法,不过需要特别注意的最好上传文件夹,里面包含了所有需要上传的测序文件,不然是上传到根目录了,不能显示,费半天劲白传了。可以参考我的这个代码。”samples_dir”为包含测序文件的文件夹,“root_link”为NCBI提供的链接,点“Aspera Command-Line upload”右边的加号就会出现,一般是邮箱加密钥。一般是上传完成后10分钟才会看到结果。

nohup ~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -QT -l100m -k1 -d ~/data/transcriptome/samples/fleshed/samples_dir subasp@upload.ncbi.nlm.nih.gov:uploads/root_link &

SnpEff安装和使用中的问题

SnpEff 软件通过基因组序列和注释文件对VCF文件中的SNP/InDel信息进行注释的软件,即主要解释了SNP/InDel是否能够对编码蛋白基因造成影响。关于snpEff使用和安装的文章很多了(如SnpEff使用方法SnpEFF注释vcf-笔记),我这里就不再列出了,主要晒晒我在安装和使用过程中踩过的坑。

一、版本下载的问题。在这个页面有所有snpEff的版本,第一次我下了排在最前面的snpEff_v4_5covid19_core.zip,后面在安装数据库时,发现所有常见物种的数据库都安装不了,后面看到这个包的前缀才知道是covid19版本的,只有covid19的库,想重新下一个,怎奈下载速度实在是太慢,只能放弃了。用这个版本自建了个库,发现可以用。所以下载包时要注意。

二、建库。

我使用的是NCBI中的拟南芥参考数据库建的库,先是用的基因组序列和gtf文件,用的下面代码。

java -jar ~/snpEff/snpEff.jar build -c ~/snpEff/snpEff.config -gtf22 -v AT_10

但是当使用的时候出现了下列错误:

java.lang.RuntimeException: java.lang.RuntimeException: File not found on the server. Make sure the database name is correct.

也没找到是什么原因,后来想想NCBI注释文件一直使用的gff3的文件,参考数据库中所带的gft文件可能不太对。所以就换了gff3的注释文件重新建库,果然可以了。

java -jar ~/snpEff/snpEff.jar build -c ~/snpEff/snpEff.config -gff -v AT_10

最后运行分析程序就可以了。

java -Xmx10G -jar ~/snpEff/snpEff.jar eff -c ~/snpEff/snpEff.config AT_10 positive.vcf > positive.snp.eff.vcf

对于结果解读可以参考这篇文章(SnpEff结果解读)。

CIRCOS快速安装

因要画圈图来展现测序获得的SNP的密度和质量,打算用用这个原来见过无数次但都没有用过的circos(听说非常强大)。

其实官网上已经给出了详细的安装教程,没有必要重复列出,这里主要说一下需要注意的问题。先简要说一下安装的顺序。

1、下载 circos (建议去官网下载)。

2、解压circos-current.tgz, 进入到解压后的文件,打开bin这个文件夹,运行

> circos -modules
ok       1.26 Carp
ok       0.37 Clone
ok       2.50 Config::General
ok       3.33 Cwd
ok      2.145 Data::Dumper
ok       2.52 Digest::MD5
ok       2.76 File::Basename
ok       3.33 File::Spec::Functions
ok       0.22 File::Temp
ok       1.49 FindBin
ok       0.39 Font::TTF::Font
ok       2.43 GD
ok        0.2 GD::Polyline
ok       2.37 Getopt::Long
ok       1.14 IO::File
ok       0.33 List::MoreUtils
ok       1.38 List::Util
ok       0.01 Math::Bezier
ok       1.59 Math::BigFloat
ok       0.06 Math::Round
ok       0.08 Math::VecStat
ok    1.01_02 Memoize
ok       1.13 POSIX
ok       0.95 Params::Validate
ok       1.36 Pod::Usage
ok       1.03 Readonly
ok 2010010201 Regexp::Common
ok       2.49 SVG
ok       1.16 Set::IntSpan
ok     1.6607 Statistics::Basic
ok       2.30 Storable
ok       1.11 Sys::Hostname
ok       2.02 Text::Balanced
ok       0.53 Text::Format
ok     1.9725 Time::HiRes

确定每个模块都ok,对于标记为missing的模块,使用cpan安装。GD模块安装不上的话接着看下一步。

3、安装GD

建议使用yum install 安装,附带的库也会一起安装,不然还要一下一个的下载源代码去安装,如ncurses, zlib,PNG,ttf ,libmcrypt,JPEG6libxml2,Fontconfig 非常麻烦。如果没有yum权限那就没有办法了,乖乖的一个一个安吧。

>yum -y install gd-devel.x86_64

4、安装好上面的GD库后,再返回再用cpan安装GD模块。

5、进入到circos的安装目录的example文件夹中,运行事例文件。

> ./run

在Jupyter中配置使用Julia语言

最近了解到Julia是种非常好用的语言,打算学习一下,在 coursera上找到了相应的课程,但是是写在Jupyter中的,只能安装 IJulia 插件,按照要求先是在Julia终端(安装Julia的过程很简单,这里就不介绍了)输入

using Pkg
Pkg.add("IJulia")
结果出现了好像包不能编译的情况如ZMQ,”build ZMQ”出现了下面的错误:
(v1.1) pkg> build ZMQ
  Building ZMQ → `~/.julia/packages/ZMQ/ABGOx/deps/build.log`
┌ Error: Error building `ZMQ`: 
│ ┌ Warning: platform_key() is deprecated, use platform_key_abi() from now on
│ │   caller = ip:0x0
│ └ @ Core :-1
│ ┌ Warning: Could not extract the platform key of https://github.com/JuliaInterop/ZMQBuilder/releases/download/v4.2.5+6/ZMQ.x86_64-apple-darwin14.tar.gz; continuing...
│ └ @ BinaryProvider ~/.julia/packages/BinaryProvider/TcAwt/src/Prefix.jl:185
│ [ Info: Downloading https://github.com/JuliaInterop/ZMQBuilder/releases/download/v4.2.5+6/ZMQ.x86_64-apple-darwin14.tar.gz to /Users/davidbuchaca1/.julia/packages/ZMQ/ABGOx/deps/usr/downloads/ZMQ.x86_64-apple-darwin14.tar.gz...
│ ERROR: LoadError: Could not download https://github.com/JuliaInterop/ZMQBuilder/releases/download/v4.2.5+6/ZMQ.x86_64-apple-darwin14.tar.gz to /Users/davidbuchaca1/.julia/packages/ZMQ/ABGOx/deps/usr/downloads/ZMQ.x86_64-apple-darwin14.tar.gz:
│ ErrorException("")
│ Stacktrace:
│  [1] error(::String) at ./error.jl:33
│  [2] #download#89(::Bool, ::Function, ::String, ::String) at /Users/davidbuchaca1/.julia/packages/BinaryProvider/TcAwt/src/PlatformEngines.jl:498
│  [3] #download at ./none:0 [inlined]
│  [4] #download_verify#90(::Bool, ::Bool, ::Bool, ::Function, ::String, ::String, ::String) at /Users/davidbuchaca1/.julia/packages/BinaryProvider/TcAwt/src/PlatformEngines.jl:567
│  [5] #download_verify at ./none:0 [inlined]
│  [6] #install#129(::Prefix, ::String, ::Bool, ::Bool, ::Bool, ::Function, ::String, ::String) at /Users/davidbuchaca1/.julia/packages/BinaryProvider/TcAwt/src/Prefix.jl:314
│  [7] (::getfield(BinaryProvider, Symbol("#kw##install")))(::NamedTuple{(:prefix, :force, :verbose),Tuple{Prefix,Bool,Bool}}, ::typeof(install), ::String, ::String) at ./none:0
│  [8] top-level scope at /Users/davidbuchaca1/.julia/packages/ZMQ/ABGOx/deps/build.jl:44
│  [9] include at ./boot.jl:326 [inlined]
│  [10] include_relative(::Module, ::String) at ./loading.jl:1038
│  [11] include(::Module, ::String) at ./sysimg.jl:29
│  [12] include(::String) at ./client.jl:403
│  [13] top-level scope at none:0
│ in expression starting at /Users/davidbuchaca1/.julia/packages/ZMQ/ABGOx/deps/build.jl:40
│ [22:31:24] dyld: Library not loaded: @rpath/libssl.1.0.0.dylib
│ [22:31:24]   Referenced from: /Users/davidbuchaca1/anaconda3/lib/libssh2.1.dylib
│ [22:31:24]   Reason: image not found
└ @ Pkg.Operations /Users/julia/buildbot/worker/package_macos64/build/usr/share/julia/stdlib/v1.1/Pkg/src/Operations.jl:1075
整整折腾了太半天都没解决,如修改logo文件,切换到管理员权限,重装Julia等等都行不通,包括官网上的方法也不行,最后在CSDN中糖王大王中的一篇文章中找到了方法,原来是要先安装C库,而且只需要安装“MbedTLS”就可全部解决,包括IJulia都安装好了。具体思路就是先用“julia> rm(joinpath(homedir(), “.julia”, “registries”); recursive=true)”删除掉旧的registries,再导入”Pkg”,”julia> import Pkg”,最后安装”MbedTLS”,”julia> Pkg.build(“MbedTLS”)”,三步全部搞定。

如果还是出现上述的问题,可能还需要装一个windows更新Windows Management Framework

Download Windows Management Framework 5.1 from Official Microsoft

安装完成后”using IJulia”,因为电脑原来安装Anaconda3时已经安装了Jupter Notebook了,所以这时只需要打开Jupter Notebook,在首页右上角的”New”下拉菜单上就可以找到新安装的”julia”,打开就可以运行代码了。不需要在Julia终端运行“notebook()”。
               _
   _       _ _(_)_     |  Documentation: https://docs.julialang.org
  (_)     | (_) (_)    |
   _ _   _| |_  __ _   |  Type "?" for help, "]?" for Pkg help.
  | | | | | | |/ _` |  |
  | | |_| | | | (_| |  |  Version 1.2.0 (2019-08-20)
 _/ |\__'_|_|_|\__'_|  |  Official https://julialang.org/ release
|__/                   |

(v1.2) pkg> add ZMQ
  Updating registry at `C:\Users\kejunjun\.julia\registries\General`
  Updating git-repo `https://github.com/JuliaRegistries/General.git`
 Resolving package versions...
  Updating `C:\Users\kejunjun\.julia\environments\v1.2\Project.toml`
 [no changes]
  Updating `C:\Users\kejunjun\.julia\environments\v1.2\Manifest.toml`
 [no changes]
julia>  rm(joinpath(homedir(), ".julia", "registries"); recursive=true)
julia> import Pkg
julia> Pkg.build("MbedTLS")
   Cloning default registries into `C:\Users\kejunjun\.julia`
   Cloning registry from "https://github.com/JuliaRegistries/General.git"
     Added registry `General` to `C:\Users\kejunjun\.julia\registries\General`
 Installed Lazy ──────────────────────────────────── v0.14.0
 Installed FixedPointNumbers ────────── v0.6.1
 Installed Conda ────────────────────────────────── v1.3.0
 Installed FunctionalCollections ── v0.5.0
 Installed Distances ────────────────────────── v0.8.2
 Installed Traceur ────────────────────────────── v0.3.0
 Installed BinaryProvider ──────────────── v0.5.6
 Installed WebIO ────────────────────────────────── v0.8.11
 Installed Requires ──────────────────────────── v0.5.2
 Installed StringDistances ────────────── v0.4.0
 Installed CodeTracking ──────────────────── v0.5.8
 Installed Hiccup ──────────────────────────────── v0.2.2
 Installed Tokenize ──────────────────────────── v0.5.6
 Installed OrderedCollections ──────── v1.1.0
 Installed MbedTLS ────────────────────────────── v0.7.0
 Installed TreeViews ────────────────────────── v0.3.0
 Installed SoftGlobalScope ────────────── v1.0.10
 Installed Juno ──────────────────────────────────── v0.7.2
 Installed Pidfile ────────────────────────────── v1.1.0
 Installed CodeTools ────────────────────────── v0.6.4
 Installed VersionParsing ──────────────── v1.1.3
 Installed URIParser ────────────────────────── v0.4.0
 Installed JSON ──────────────────────────────────── v0.21.0
 Installed Colors ──────────────────────────────── v0.9.6
 Installed Widgets ────────────────────────────── v0.6.2
 Installed LNR ────────────────────────────────────── v0.2.0
 Installed Atom ──────────────────────────────────── v0.10.1
 Installed ColorTypes ──────────────────────── v0.8.0
 Installed WebSockets ──────────────────────── v1.5.2
 Installed IniFile ────────────────────────────── v0.5.0
 Installed HTTP ──────────────────────────────────── v0.8.6
 Installed DataStructures ──────────────── v0.17.1
 Installed Media ────────────────────────────────── v0.5.0
 Installed ZMQ ────────────────────────────────────── v1.0.0
 Installed JuliaInterpreter ──────────── v0.7.3
 Installed MacroTools ──────────────────────── v0.5.1
 Installed Compat ──────────────────────────────── v2.1.0
 Installed Reexport ──────────────────────────── v0.2.0
 Installed Cassette ──────────────────────────── v0.2.6
 Installed DocSeeker ────────────────────────── v0.3.0
 Installed Parsers ────────────────────────────── v0.3.7
 Installed Observables ────────────────────── v0.2.3
 Installed CSTParser ────────────────────────── v0.6.2
 Installed AssetRegistry ────────────────── v0.1.0
 Installed JuliaFormatter ──────────────── v0.1.13
 Installed IJulia ──────────────────────────────── v1.20.0
  Building MbedTLS →→ `C:\Users\kejunjun\.julia\packages\MbedTLS\a1JFn\deps\buil
d.log`
  Building WebIO ────→→ `C:\Users\kejunjun\.julia\packages\WebIO\2mZPb\deps\buil
d.log`
  Building Conda ────→→ `C:\Users\kejunjun\.julia\packages\Conda\kLXeC\deps\buil
d.log`
  Building ZMQ ────────→→ `C:\Users\kejunjun\.julia\packages\ZMQ\ABGOx\deps\buil
d.log`
  Building IJulia ──→→ `C:\Users\kejunjun\.julia\packages\IJulia\fRegO\deps\buil
d.log`
  Building MbedTLS →→ `C:\Users\kejunjun\.julia\packages\MbedTLS\a1JFn\deps\buil
d.log`
false

julia> using IJulia
[ Info: Precompiling IJulia [7073ff75-c697-5162-941a-fcdaad2a7d2a]

生物信息数据库大全

生物信息学数据库分类概览
生物与计算机的结合让生物进入大数据时代,为方便管理各种生物数据,科学家们开发了各式各样的生物数据库。了解与自己研究领域相关的数据库,并加以利用可能会使研究工作得到事半功倍的效果。在此将常用数据库按照以下分类方式大致整理了一下,也方便检索。

分类不准或有遗漏的欢迎指出,后续将不断推出更新版本。

目录
Meta databases
Model organism databases
Nucleic acid databases
3.1 DNA databases
3.2 Gene expression databases (mostly microarray data)
3.3 Phenotype databases
3.4 RNA databases
Amino acid / protein databases
4.1 Protein sequence databases
4.2 Protein structure databases
4.3 Protein model databases
4.4 Protein-protein and other molecular interactions
Signal transduction pathway databases
Metabolic pathway and protein function databases
Additional databases
7.1 Exosomal databases
7.2 Mathematical model databases
7.3 Taxonomic databases
7.4 Radiologic databases
Wiki-style databases
Specialized databases
Database

  1. Meta databases
    元数据库,合并不同来源的相关数据以更新的或更加方便的形式提供新的数据,通俗的讲就是数据库的数据库,代表性的数据库主要有以下几个:

ConsensusPathDB
网址:http://consensuspathdb.org/
描述:分子功能互作数据库,基于32个公共数据库,整合了人类蛋白质相互作用,遗传相互作用信号,代谢,基因调控和药物 – 靶标相互作用的信息。

Entrez
网址:https://www.ncbi.nlm.nih.gov/Class/MLACourse/Modules/Entrez/complex_boolean.html
描述:Entrez跨数据库全局查询搜索系统是一个联合搜索引擎或门户网站,允许用户在NCBI网站上搜索许多离散的健康科学数据库。

Neuroscience Information Framework
网址:https://neuinfo.org//
描述:整合了数百种神经科学相关资源,包括实验,临床和转化神经科学数据库,知识库,地图集和遗传/基因组资源等。

GeneCard
网址:https://www.genecards.org/
描述:自动整合125个数据库,包含基因组、转录组、蛋白组、遗传、临床和功能信息的庞大人基因组数据库。

Ensembl Genomes
网址:http://ensemblgenomes.org/
描述:该项目由EMBL运营,提供细菌、原生生物、真菌、植物和无脊椎动物后生动物的基因组数据。

NGS基础 – 参考基因组和基因注释文件
NGS基础 – GTF/GFF文件格式解读和转换
UCSC Genome
网址: http://genome.ucsc.edu
描述:主要是动物基因组信息,基因组注释,基因组保守性和基因组共线性数据。

UCSC XENA – 集大成者(TCGA, ICGC)
UCSC基因组浏览器
Human protein atlas
网址:http://www.proteinatlas.org/
描述:人体蛋白在细胞、组织、病理条件下的表达

ICGC数据库使用

  1. Model organism databases
    模式生物数据库,为深入研究模式生物提供生物数据,如:

Personal Genome Project
网址:https://www.personalgenomes.org/
描述:来自世界各地的100,00名志愿者的人类基因组计划。

Mouse Genome Database(MGD)
网址:http://www.informatics.jax.org/
描述:MGD数据库是整合了国际上实验室小鼠生物数据的资源库,提供小鼠相关的基因组、综合遗传等信息。

Rat Genome Database (RGD):
网址:https://rgd.mcw.edu/
描述:大鼠基因组数据库。

PomBase
网址:https://www.pombase.org/
描述:裂殖酵母Schizosaccharomyces pombe的知识库。

Saccharomyces Genome Database (SGD):
网址:https://www.yeastgenome.org/
描述:酵母模型生物的基因组数据库

TAIR
网址 https://www.arabidopsis.org/
描述:最全的拟南芥资源数据库。政府为我们付费购买了使用权,以至于不少人没感觉到TAIR已经收费了。

Legume Information System (LIS)
网址:https://legumeinfo.org/
描述:豆科植物的基因组数据库。

Wormbase:
网址:https://wormbase.org/#012-34-5
描述:关于线虫模式生物秀丽隐杆线虫的生物学和基因组在线生物数据库,还包含其他相关线虫的信息。

Xenbase:
网址:http://www.xenbase.org/entry/
描述:模式生物非洲爪蟾(Xenopus tropicalis)和非洲爪蟾(Xenopus laevis)的基因组数据库。

Zebrafish Information Network:
网址:http://zfin.org/
描述:斑马鱼的基因组数据库。

FlyBase:
网址:http://flybase.org/
描述:模式生物果蝇的基因组数据库。

UCSC Malaria Genome Browser:
网址:http://enacademic.com/dic.nsf/enwiki/7907997
描述:UCSC疟疾基因组浏览器是研究疟疾(如恶性疟原虫等)基因组的生物信息学研究工具。

  1. Nucleic acid databases
    3.1 DNA databases
    核酸数据库分为一级数据库(Primary databases)和二级数据库(Secondary databases)

3.1.1 一级核酸数据库
下面三个数据库是核酸的主数据库,存储来自所有生物的核酸序列,接受用户提交核酸序列,每天交换更新数据以实现他们之间的最佳同步。

DNA Data Bank of Japan
网址:https://www.ddbj.nig.ac.jp/index-e.html
EMBL (European Bioinformatics Institute)
网址:https://www.embl.org/
NCBI (National Center for Biotechnology Information)
网址:https://www.ncbi.nlm.nih.gov/
生信软件系列 – NCBI使用
如果你经常用PubMed,那么这个插件将非常好用!
一文教会你查找基因的启动子、UTR、TSS等区域以及预测转录因子结合位点
3.1.2 二级核酸数据库
数目很多,先列出一些,欢迎补充:

23andMe’s database
网址:https://www.23andme.com/en-int/
描述:23andMe是一家私营的个人基因组学生物技术公司 ,主要业务是基于唾液对消费者进行基因检测,并向客户提供基因检测报告。

OMIM (Online Mendelian Inheritance in Man):
网址:https://omim.org/
描述:一个管理人类基因和人类遗传疾病特征的数据库。

RefSeq
网址:https://www.ncbi.nlm.nih.gov/refseq/
描述:参考序列数据库收集了从病毒、细菌到真核生物等主要生物的核酸序列(DNA、RNA)及其蛋白质常产物。

1000 Genomes Project:
网址:http://www.internationalgenome.org/
描述:2008年1月启动的项目,对来自不同种族群体的一千多名匿名参与者的基因组进行了分析,并将数据公布于众。

SNP / Disease Databases
网址:https://www.snpedia.com/
描述:人SNP位点对表型的影响和贡献度数据库

3.2 Gene expression databases
这些数据库收集基因组序列,注释并分析他们,以提供公共访问。主要包括:

ArrayExpress
网址:https://www.ebi.ac.uk/arrayexpress/
描述:功能基因组数据存档;存储来自EMBL的高通量功能基因组学实验的数据;展示方式很炫酷。

Bioinformatic Harvester
网址:Ensembl: http://asia.ensembl.org/index.html
描述:为人类,小鼠,其他脊椎动物和真核生物基因组提供自动注释的数据库

BioGPS
网址:http://biogps.org/#goto=welcome
描述:强大的基因和蛋白表达注释平台

Gene Disease Database
基因疾病数据库,通过整理表型-基因型关系和基因-疾病机制,以及多种复合相互作用来理解复杂疾病的潜在机制。主要数据库如下:

5.1 The Comparative Toxicogenomics Database (CTD)
网址:http://ctdbase.org/
5.2 The Universal Protein Resource (UNIPROT)
网址:https://www.uniprot.org
5.3 The Online Mendelian Inheritance in Man
网址:https://www.ncbi.nlm.nih.gov/omim
5.5 The Ensembl genome database project
网址:http://www.ensembl.org/
5.6 The Gene Disease Associations Database DisGeNET
网址:http://www.disgenet.org/

Gene Expression Omnibus (GEO):
网址:https://www.ncbi.nlm.nih.gov/geo/
描述:来自美国国家癌症研究所(NCI)的公共功能基因组数据库,它支持基于阵列和序列的数据,并提供了用于查询和下载基因表达谱的工具。

NGS基础 – 测序原始数据下载
测序文章数据上传找哪里
3.3 Phenotype databases
PHI-base:
网址:http://www.phi-base.org/
描述:病原体 – 宿主相互作用数据库。

细胞表型数据库
网址:https://www.ebi.ac.uk/fg/sym
描述:基于RNAi的细胞表型收集

dbGAP
网址:https://www.ncbi.nlm.nih.gov/gap
描述:基因型-表型数据库,来源于GWAS、医学测序、分子诊断等

The Human Phenotype Ontology
网址:https://hpo.jax.org/app/
描述:人类疾病表型描述的标准化术语,类比于Gene Ontology. 现有13000个条目和156,000关于遗传病的注释。

GWAS central
网址: https://www.gwascentral.org
描述:包含2,974,967个SNP与829个MeSH疾病、表型之间的69,986,326个关联。

European genome-phenome archive
网址:https://ega-archive.org
描述:生物医学研究中涉及的遗传和表型数据关联库

Monarch
网址:https://monarchinitiative.org
描述:基因型-表型数据库,表型相似性度量

Cellular Phenotype Database
网址:http://www.ebi.ac.uk/fg/sym
描述:存储来自高通量表型研究的数据,可以搜索感兴趣的表型并检索相关靶基因和RNAi

GenomeRNAi
网址:http://www.genomernai.org/
描述:包含来自果蝇和人RNA干扰筛选的表型数据库

Genomics of Drug Sensitivity in Cancer
网址:http://www.cancerrxgene.org/
描述:筛选了多种抗癌疗法人类癌细胞系,通过与基因组数据关联以识别药物靶标,同时为临床应用提供信息

GenomeCRISPR
网址:http://genomecrispr.dkfz.de/
描述:用于高通量CRISPR / Cas9筛选实验的数据库

Cellular Microscopy Phenotype Ontology (CMPO)
网址:www.ebi.ac.uk/cmpo/
描述:CMPO为描述与整个细胞、细胞成分、细胞过程和细胞群体有关的表型特性提供了一种物种中立的词汇。

Human Phenotype Ontology (HPO)
网址:https://hpo.jax.org/app/
描述:提供了人类疾病中表型异常的标准化词汇

3.4 RNA databases
miRBase
网址:http://www.mirbase.org/
描述:存储microRNA序列和注释的数据库。

Rfam:
网址:http://rfam.org/
描述:一个包含非编码RNA(ncRNA)家族和其他类型RNA信息的数据库。

RNAcentral
网址:https://rnacentral.org/
描述:非编码RNA序列数据库。

  1. Amino acid / protein databases
    4.1 Protein sequence databases
    Swiss-Prot/Uniprot
    网址:https://www.uniprot.org/
    描述:结合了从文献中提取的信息和生物鉴定者评估的计算分析,是一个手动注释的非冗余蛋白质序列数据库。

Database of Interacting Proteins (Univ. of California)
网址:https://dip.doe-mbi.ucla.edu/dip/Main.cgi
描述:记录了实验确定的蛋白质之间的相互作用。

DisProt:(打不开了)
网址:http://www.disprot.org/
描述:用于注释文献中的蛋白固有无序区域(IDRs)

2018Cell系列最好的调控方式-相变,最强综述,未来以来,你在哪
InterPro:
网址:https://www.ebi.ac.uk/interpro/
描述:通过整合多个蛋白相关数据库,提供了一个方便的对蛋白序列进行功能注释的平台,包括对蛋白质家族、结构域、功能位点的预测。

MobiDB:
网址:http://mobidb.bio.unipd.it/
描述:内在蛋白质紊乱注释数据库。

neXtProt:
网址:https://www.nextprot.org/
描述:人类蛋白质数据库。

Pfam:
网址:http://pfam.xfam.org/
描述:Pfam是蛋白质家族的数据库,包括使用隐马尔可夫模型生成的注释和多序列比对。

PRINTS
网址:http://130.88.97.239/PRINTS/index.php
描述:蛋白质序列指纹图谱数据库,所谓蛋白质的指纹是指一组保守的序列基序,用于刻画蛋白质家族的特征。

PROSITE:
网址:https://prosite.expasy.org/
描述:收集了有显著生物学意义的蛋白质位点和序列模式,并能根据这些位点和模式快速并可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。

Protein Information Resource
网址:https://pir.georgetown.edu/
描述:是一个全面的、经过注释的、非冗余的蛋白质序列数据库。可帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。

SUPERFAMILY:
网址:http://supfam.org/SUPERFAMILY/
描述:一个包含所有蛋白质和基因组结构和功能注释的数据库。

4.2 Protein structure databases
Protein Data Bank (PDB)
网址:http://www.rcsb.org
描述:一个专门收录蛋白质及核酸的三维结构资料的数据库,以下为PDB成员网站
1.1 Protein DataBank in Europe (PDBe):https://www.ebi.ac.uk/pdbe/
1.2 ProteinDatabank in Japan (PDBj):https://pdbj.org
1.3 Research Collaboratory for Structural Bioinformatics (RCSB):https://www.rcsb.org
1.4 Worldwide Protein Data Bank:http://www.wwpdb.org/

The Protein Protein Interaction Inhibition Database (2PI2db):
网址:http://2p2idb.cnrs-mrs.fr
描述:收集了已通过X射线晶体学或核磁共振表征的蛋白质-蛋白质、蛋白质-调节剂复合物结构。

4.3 Protein model databases
ModBase:
网址:https://modbase.compbio.ucsf.edu/modbase-cgi/index.cgi
描述:一个注释比较饭白纸结构模型的数据库。

Protein Model Portal (PMP):
网址:https://www.proteinmodelportal.org
描述:结合了数个蛋白质结构模型数据库的元数据库,提供模型构建和质量评估等多种交互式服务。

Similarity Matrix of Proteins (SIMAP):
网址:http://cube.univie.ac.at/resources/simap
描述:基于FASTA序列计算的蛋白质相似性数据库。

Swiss-model:
网址:https://swissmodel.expasy.org
描述:致力于同源蛋白质的3D结构建模。

4.4 Protein-protein and other molecular interactions
BioGRID
网址:https://thebiogrid.org
描述:蛋白质与遗传相互作用数据库。

string
网址:http://string-db.org/cgi/help.pl?subpage=api
描述:用于检索相互作用基因/蛋白质的搜索工具

IntAct
网址:https://www.ebi.ac.uk/intact/
描述:为分子交互研究提供免费的开源数据库系统和分析工具。

  1. Signal transduction pathway databases
    NCI-Nature Pathway Interaction Database
    网址:http://biogps.org/plugin/259/nci-nature-pathway-interaction-database/
    描述:http://www.ndexbio.org/#/ (原来的PID迁移到此新数据库)。
    NDEx提供了一个开源框架,科学家和机构可以共享、存储、操作和发布生物网络知识。

Netpath
网址:http://www.netpath.org/
描述:人类信号转导通路数据库,拥有45个信号通路,包括在免疫系统调节和癌症调节中起主要作用的通路。

Reactome
网址:https://reactome.org/
描述:该库覆盖了19个物种的通路研究,包括经典的代谢通路、信号转导、基因转录调控、细胞凋亡与疾病。

reactome相关推文:

生物AI插图素材获取和拼装指导
没钱买KEGG怎么办?REACTOME开源通路更强大
WikiPathways
网址:https://www.wikipathways.org/index.php/WikiPathways
描述:该数据库收录了超过20个物种的通路,其中人类的通路就包含了800多个通路,涵盖了约7500种基因。此外,它还包含了超过1000个代谢产物的通路。

  1. Metabolic pathway and protein function databases
    代谢途径和蛋白质功能数据库

BiGG Models
网址:http://bigg.ucsd.edu
描述:该数据库将70多种已发表的基因组规模的代谢网络整合到了一起,并且有一组标准化的BiGG ID。

BioCyc Database Collection:
网址:https://biocyc.org
描述:收集了14558个通路/基因组数据库,每一个数据库描述了单个有机体的基因组和代谢通路,同时提供多种用于组学数据导航和可视化的分析工具。

BRENDA:
网址:http://www.brenda-enzymes.org
描述:酶数据库,提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。

HMDB
网址:http://www.hmdb.ca
描述:人类代谢组数据库,包含有关人体中发现的小分子代谢物的详细信息。

KEGG PATHWAY Database
网址:https://www.kegg.jp
描述:KEGG是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。

Reactome(同上)

WikiPathways(同上)

  1. Additional databases
    7.1 Exosomal databases
    外泌体是一类可以由多种细胞类型分泌的胞外囊泡,与其他胞外囊泡如核外颗粒体和凋亡小体不同,外泌体是内吞起源的。外泌体在疫苗、药物递送、细胞间通信的作用以及其作为生物标志物的一种可能来源以及引起了研究人员的极大兴趣,导致外泌体相关研究呈现井喷趋势。相关数据库如下:

ExoCarta
网址:http://www.exocarta.org
描述:是一个关于外泌体蛋白、RNA、脂质体的手工数据库。

exoRBase
网址:http://www.exorbase.org
描述:将不同疾病血来源外泌体中的circRNA, lncRNA和mRNA进行整理的数据库。

7.2 Mathematical model databases
Biomodels Database
网址:http://biomodels.caltech.edu
描述:生物模型在线数据库,主要存储数量型生物化学模型。
7.3 Taxonomic databases
BacDive
网址:https://bacdive.dsmz.de
描述:提供有关细菌和古细菌生物多样性的菌株相关信息。

EzTaxon-e
网址:https://www.ezbiocloud.net
描述:基于16S核糖体RNA基因序列鉴定原核生物的数据库。

7.4 Radiologic databases
The Cancer Imaging Archive (TCIA)
网址:http://www.cancerimagingarchive.net
描述:包含常见肿瘤(肺癌、前列腺癌等)医学图像(MRI、CT等)及相应临床信息(治疗方案细节、基因、病理等)的大规模公用数据库。

Neuroimaging Informatics Tools and Resources Clearinghouse
网址:https://www.nitrc.org
描述:神经影像信息学工具和资源交换中心。

  1. Wiki-style databases
    Gene Wiki
    网址:https://en.wikipedia.org/wiki/Wikipedia:Gene_Wiki
    描述:一个基于wiki的基因信息数据库
  2. Specialized databases
    Barcode of Life Data Systems
    网址:http://www.boldsystems.org
    描述:DNA条形码数据库(即生物体内能够代表该物种的、标准的、有足够变异的、易扩增且相对较短的DNA片段),并提供一个分析DNA序列的在线平台。

The Cancer Genome Atlas (TCGA)
网址:https://cancergenome.nih.gov
描述:提供使用高通量技术获得的癌症样本数据,包括基因表达谱、拷贝数变异、SNP基因分型、全基因组DNA甲基化等。

Cellosaurus
网址:https://web.expasy.org/cellosaurus/
描述:细胞系的在线资源库。

Comparative Toxicogenomics Database (CTD)
网址:http://ctdbase.org
描述:CTD(比较毒物遗传数据库),为研究人员提供了集中、综合的各种不同类型分子以及来自各种生物体的毒理学数据。

DiProDB
网址:http://diprodb.fli-leibniz.de
描述:收集和分析热力学,结构和其他二核苷酸特性的数据库。

Dryad
网址:http://datadryad.org
描述:存放优质数据资源的场所,使科学出版物背后的数据可被发现、可重复使用、可引用。

Edinburgh Mouse Atlas
网址:http://www.emouseatlas.org/emap/home.html
描述:小鼠胚胎原位基因表达数据库。

EPD Eukaryotic Promoter Database
网址:https://epd.vital-it.ch/index.php
描述:真核基因启动子数据库,提供从EMBL中得到的真核基因的启动子序列,帮助实验研究人员、生物信息学研究人员分析真核基因的转录信号。

FINDbase (the Frequency of INherited Disorders database)
网址:http://www.findbase.org
描述:是一个全球治病遗传变异频率的数据库。

HGNC (HUGO Gene Nomenclature Committee):
网址:https://www.genenames.org
描述:负责对人类基因组包括蛋白编码基因, ncRNA基因,甲基因和其他基因在内的所有基因提供一个唯一的、标准的、可以广泛传播的symbol

International Human Epigenome Consortium
网址:http://ihec-epigenomes.org
描述:国际人类表观基因组学会,致力于全球表观基因组学领域的发展。

MethBase
网址:http://smithlabresearch.org/software/methbase/
描述:在UCSC Genome Browser上可视化的DNA甲基化数据库。

Minimotif Miner
网址:http://minimotifminer.org/
描述:短连续功能性肽基序的数据库。

NCI-dbGaP
网址:https://www.ncbi.nlm.nih.gov/gap
描述:人类基因型和表型相互作用的数据库。

PubMed
网址: https://www.ncbi.nlm.nih.gov/pmc/
描述:生命科学和生物医学领域的参考和摘要。

Oncogenomic databases
网址:https://oglandscapes.irbbarcelona.org
描述:用于癌症研究的数据库汇编。

RIKEN integrated database of mammals
网址:http://metadb.riken.jp/metadb/download/SciNetS_ria254i
描述:Riken研究所推广的多个大型项目的综合数据库。

TDR Targets
网址:http://tdrtargets.org
描述:专注于热带疾病药物发现的化学基因组学数据库。

LNCipedia
网址:http://www.lncipedia.org/
描述:人类长链非编码RNA的整合库

NONCODE
网址: http://www.noncode.org/
描述:存储17类(人类,小鼠,牛,大鼠,鸡,果蝇,斑马鱼,小肠,酵母,拟南芥,黑猩猩,大猩猩,猩猩,恒河猴,负鼠和猪)物种非编码RNA(不包括tRNA和rRNA)的数据库

Oncomine
网址:https://www.oncomine.org/resource/login.html
描述:肿瘤相关基因研究的数据库,整合了GEO、TCGA和已发表的文献等来源的RNA和DNA-seq数据

GeneVestigator(GV)
网址:https://genevestigator.com/
描述:一个基因表达的搜索引擎,集成了上万的人工精选、注释的公共芯片实验结果

immuneXpresso
网址:http://immuneexpresso.org/immport-immunexpresso/public/immunexpresso/search

主要部分转载自( https://blog.csdn.net/qazplm12_3/article/details/83014648 ),主要针对动物方面的,关于植物方面的数据库我将结合这么多年的经历再整理出一部分。

Aspera从NCBI下载数据

如果要从NCBI下载大数据,单纯用FTP下载工具根本不够用了,还在NCBI提供了一款下载神器Aspera,试着用了一下,效果非常好,我6M的宽带速度可以达到5M/s,现简要介绍一下使用方法和遇到的问题。
1、下载
下载地址为:http://downloads.asperasoft.com/en/downloads/8?list
先点击操作系统的图标,在下拉框中就出现了相应的操作系统,再点下拉框右边那个小三角形,选择要下载的版本,然后点左边的”Download”图标就可以下载了。这个设计的真心有问题,反正我点了操作系统后,怎么也没找到下载的图标,后面还是不经意间点了那个下拉框后才出现。
2、安装
Windowns下直接双击下载的文件,linux下运行“ sh aspera-connect-xx-linux-64.sh ”,安装完成后在当前目录会找不到安装文件,其实是安装在当前用户的根目录下了,linux安装文件为隐藏文件“/home/用户/.aspera/”。windows中会出现在开始菜单里,具体的配置可以参考“ http://boyun.sh.cn/bio/?p=1933 ”的介绍。
3、使用
如果是批量下载,将要下载的文件链接存入一个文件,例如我要下载所有植物参考蛋白数据,先在NCBI FTP中找到所在目录,将要下载的文件路径存入文件plant_protein_seq_file_list.txt,格式如下/refseq/release/plant/plant.1.protein.faa.gz,每个文件一行,然后运行

/home/用户/.aspera/connect/bin/ascp -k 1 -QT -l 100M  -i /home/用户/.aspera/connect/etc/asperaweb_id_dsa.openssh --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp   --file-list plant_protein_seq_file_list.txt   ./  

具体各参数的意思可以运行/home/用户/.aspera/connect/bin/ascp –help查看软件自带的说明。
备注:
(1)将“用户”换成当前使用的用户名。
(2)如果使用asperaweb_id_dsa.putty会出现要输入密码的情况,建议换成asperaweb_id_dsa.openssh,反正我找了半天都没有找到密码。
(3)“./”表示的是下载的输出目录为当前目录,也可以换成其它的目录。
如果是单独下载一个文件,运行

/home/用户/.aspera/connect/bin/ascp -k 1 -QT -l 100M -i /home/用户/.aspera/connect/etc/asperaweb_id_dsa.openssh -T anonftp@ftp-private.ncbi.nlm.nih.gov:/refseq/release/plant/plant.1.protein.faa.gz ./ 

centOS7 安装mysql5.7

mysql5.7相比较mysql5.6而言,有很大进步,特别对于安装来说,要简单得多。现将方法简介而下。
前两步和安装mysql5.6相同。
1、卸载mariadb
rpm -e mariadb-libs-5.5.37-1.el7_0.x86_64
###会提示错误:依赖检测失败
###加上–nodeps参数强制卸载
rpm -e –nodeps mariadb-libs-5.5.37-1.el7_0.x86_64
如果找不到就用yum -y remove mariadb-libs.x86_64
2、下载mysql5.7
进入mysql下载官网,点击左上方的“Community”,选择平台“Red Hat Enterprise Linux”,下载此版本下的mysql-5.7.11-1.el7.x86_64.rpm-bundle.tar(大小为520.7M),如果点击Download会提示你要先登录Oracle帐户,如果没有帐户或者不想登录,可以点击下方的“No thanks,just start my download”,也可一个FTP站点下载,里面包含了几乎所有的mysql版本。
3、安装
解压:tar xvf mysql-5.7.11-1.el7.x86_64.rpm-bundle.tar ,先安装“rpm -ivh mysql-community-common-5.7.11-1.el7.x86_64.rpm”,然后“mysql-community-libs-5.7.11-1.el7.x86_64.rpm”,再“mysql-community-client-5.7.11-1.el7.x86_64.rpm”,“mysql-community-devel-5.7.11-1.el7.x86_64.rpm”,最后“mysql-community-server-5.7.11-1.el7.x86_64.rpm”。
安装后mysql的主要文件如下:
MySQL Installation Layout for Linux RPM Packages from the MySQL Developer Zone

Files or Resources Location
Client programs and scripts /usr/bin
mysqld server /usr/sbin
Configuration file /etc/my.cnf
Data directory /var/lib/mysql
Error log file For RHEL, Oracle Linux, CentOS or Fedora platforms: /var/log/mysqld.log

For SLES: /var/log/mysql/mysqld.log

Value of secure_file_priv /var/lib/mysql-files
System V init script For RHEL, Oracle Linux, CentOS or Fedora platforms: /etc/init.d/mysqld

For SLES: /etc/init.d/mysql

Systemd service For RHEL, Oracle Linux, CentOS or Fedora platforms: mysqld

For SLES: mysql

Pid file /var/run/mysql/mysqld.pid
Socket /var/lib/mysql/mysql.sock
Keyring directory /var/lib/mysql-keyring
Unix manual pages /usr/share/man
Include (header) files /usr/include/mysql
Libraries /usr/lib/mysql
Miscellaneous support files (for example, error messages, and character set files) /usr/share/mysql

3、初始化
切换到root用户,启动服务“service mysqld start”,找到root用户的初始密码“grep ‘temporary password’ /var/log/mysqld.log”,用找到的密码登录root用户“mysql -uroot -p ”,改密码“mysql> ALTER USER ‘root’@’localhost’ IDENTIFIED BY ‘yourpasswd’; ”。

Blast+本地化及使用方法

原来一直用blast的,但NCBI已停止了对blast的更新,而强力推荐使用blast+,这次因为要做blast的数据量比较大,所以试了一下blast+,同时也用blast做了一下,发现blast+果然要快得多,看来习惯要改变了。其实blast+和blast的原理差不多,只不过程序参数和名称有了点变化而已,现简要介绍一下其本地化的方法:
1、下载最新版的程序,根据自己的系统选择合适的版本。
2、解压后进入程序目录……ncbi-blast-2.2.31+/bin,各个程序的功能说明可以参考我的另外一篇博客
3、各程序的参数说明可以用自带的help,例如想查blastx的参数说明可以用: ./blastx -help
4、做blast前一般要先格式化数据库,除非只是几个序列之间的比对,例如格式化一个蛋白数据库可以用下列参数:
$HOME/……/ncbi-blast-2.2.31+/bin/makeblastdb -in uniprot_sport -dbtype prot -input_type fasta -parse_seqids -hash_index
主要几个程序的使用例子:
blastp -query protein.fa -out /protein.output -db dbname -outfmt 0 -evalue 1e-3 -max_target_seqs 20
blastn -query nucl.fa -out output -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
blastx -query nucl.fa -out output -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
参数说明:
-query: 输入文件路径及文件名
-out:输出文件路径及文件名
-db:格式化了的数据库路径及数据库名
-outfmt:输出文件格式,2.2.31版共有14种格式,6是tabular格式对应BLAST的m8格式
-evalue:设置输出结果的e-value值
-max_target_seqs:找到的最大的目标的数目,也可用-num_descriptions,tabular格式输出结果的条数