Xming + PuTTY 在Windows终端运行图形界面的程序

发表于 2016 年 1 月 28 日由 yuyin110

有些程序需要运行图形界面，特别是用java写的程序，例如R，试着用Xming + PuTTY可以实现。
1、下载xming
这个百度一下吧，我忘了在哪里下了，好像网上介绍的网址有些不对，多试一下就可以。
2、登录xming
第一次登录用XLaunch，一路默认就可以，再点xming运行xming服务。
3、修改putty
Connection\SSH\X11：Enable X11 Forwarding前加对勾，X display Location设为127.0.0.1:0，这里的 0 就是配置 Xming X server 时指定的 Display Number，127.0.0.1是localhost地址，最好写这个IP地址，而不是像网上介绍的写“localhost”。
4、修改SSH配置文件
切换到根用户，vim /etc/ssh/sshd_config
AllowTcpForwarding yes
X11Forwarding yes
如果有“X11Forwarding no”就把它注释掉。
5、安装x11
yum -y install xorg-x11-xauth
6、重启服务器，登录putty后，在终端运行”xterm”就可以了。

Blast+本地化及使用方法

发表于 2015 年 9 月 24 日由 yuyin110

原来一直用blast的，但NCBI已停止了对blast的更新，而强力推荐使用blast+,这次因为要做blast的数据量比较大，所以试了一下blast+，同时也用blast做了一下，发现blast+果然要快得多，看来习惯要改变了。其实blast+和blast的原理差不多，只不过程序参数和名称有了点变化而已，现简要介绍一下其本地化的方法：
1、下载最新版的程序，根据自己的系统选择合适的版本。
2、解压后进入程序目录……ncbi-blast-2.2.31+/bin，各个程序的功能说明可以参考我的另外一篇博客。
3、各程序的参数说明可以用自带的help，例如想查blastx的参数说明可以用： ./blastx -help
4、做blast前一般要先格式化数据库，除非只是几个序列之间的比对，例如格式化一个蛋白数据库可以用下列参数：
$HOME/……/ncbi-blast-2.2.31+/bin/makeblastdb -in uniprot_sport -dbtype prot -input_type fasta -parse_seqids -hash_index
主要几个程序的使用例子：
blastp -query protein.fa -out /protein.output -db dbname -outfmt 0 -evalue 1e-3 -max_target_seqs 20
blastn -query nucl.fa -out output -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
blastx -query nucl.fa -out output -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
参数说明:
-query：输入文件路径及文件名
-out：输出文件路径及文件名
-db：格式化了的数据库路径及数据库名
-outfmt：输出文件格式，2.2.31版共有14种格式，6是tabular格式对应BLAST的m8格式
-evalue：设置输出结果的e-value值
-max_target_seqs：找到的最大的目标的数目，也可用-num_descriptions，tabular格式输出结果的条数

TGICL安装和使用

发表于 2015 年 9 月 7 日由 yuyin110

TGI Clustering tools（简称TGICL），是对大量EST或者转录本数据进行快速聚类的软件，也就是将序列进行组装拼接。原理是先用NCBI的megablast先粗略进行聚类，然后用CAP3进行组装。
1、下载
TGICL在sourceforge网站可以下载到（TGICL-2.1.tar.gz），我这里是下载的是最新的2.1版。
2、安装
$tar zxvf TGICL-2.1.tar.gz
$cd TGICL-2.1

$perl Makefile.PL
$make
$make test
$make install
完成

或者
perl Build.PL
./Build
./Build test
./Build install

tgicl就安在用户目录上了，可将刚安装好的perl包和程序分别拷贝到/usr/local/lib64/perl5/ 和/usr/local/bin/perl5/中。
用的时候调用此程序就可以了，如
/usr/local/bin/perl5/tgicl -F /home/用户/all.contigs.fasta

3、安装存在的问题及解决方法
（1）Can’t locate TGI/Mailer.pm in @INC (@INC contains:
那是找不到Mailer.pm，将TGICL-2.1/lib里的文件拷贝到/usr/local/lib64/perl5/中去就可以了。
（2）Can’t locate File/HomeDir.pm in @INC (@INC contains:
那是缺少perl的File/HomeDir.pm包，进入cpan，install File::HomeDir.pm
（3）Package main, File ./tgicl, Line 27 == Failed to find tgicl.cfg config file in
那是因为tgicl.cfg配置文件没有找到，将TGICL-2.1/conf/tgicl.cfg拷贝到tgicl所在的目录，如/usr/local/bin/perl5/。
（4）Use of :locked is deprecated at ……/TGI/DBDrv.pm line 36.
打开此文件，在our $VERSION = ‘0.01’;这句的下面加上一行，
no warnings ‘deprecated’;
###直接忽略掉deprecated警告
（5）运行时产生错误err_tgicl_all_contigs.fa.log文件显示不能运行formatdb程序，因为tgicl是32 bit系统的程序，在64位系统不能运行，要安装32位运行库glibc.i686和libstdc++.i686。直接yum install glibc.i686和yum install libstdc++.i686
（6）error while loading shared libraries: libz.so.1: cannot open shared object file: No such file or directory
安装zlib.i686
sudo yum install zlib.i686

亚马逊AWS 云计算

发表于 2015 年 9 月 1 日由 yuyin110

最近要处理一些高通量测序数据，才知道我那服务器的弱小，看那内存需求动辄几十上百的，我那个位数的内存压根儿还没开始就死了，偶尔看到有云计算这种服务，觉得很有意思，收费也不是太贵，对于我这种偶尔需要一下这种高通量计算的人来说相当不错。
现在比较火的云计算有亚马逊AWS和Google的Compute Engine，另外还有IBM，微软，国内的阿里云和金山腾讯都搞得很热闹。

要想实现AWS的最佳优化,组织必须了解定价结构。那些按小时使用弹性云，并且不承担责任的客户，最好是选择按需定价。按需定价是一种最常用的定价策略，按需定价可以满足突发性的、季节性的或者短期的需求。按需定价也可能是最知名的一种定价策略,因为按需定价非常适合灵活的、基于消费的计费模型,并且按需定价被亚马逊广泛宣传。但是，按需定价并不是一种最便宜的解决方案。下面是一个价格举例。

最新miRBase物种及其编号（二）

发表于 2015 年 4 月 15 日由 yuyin110

organism	division	name	NCBI-taxid
aau	AAU	Acacia auriculiformis	205027
amg	AMG	Acacia mangium	224085
api	API	Acyrthosiphon pisum	7029
aae	AAE	Aedes aegypti	7159
ata	ATA	Aegilops tauschii	37682
atr	ATR	Amborella trichopoda	13333
aqu	AQU	Amphimedon queenslandica	400682
aca	ACA	Anolis carolinensis	28377
aga	AGA	Anopheles gambiae	7165
ame	AME	Apis mellifera	7460
aqc	AQC	Aquilegia caerulea	218851
aly	ALY	Arabidopsis lyrata	59689
ath	ATH	Arabidopsis thaliana	3702
ahy	AHY	Arachis hypogaea	3818
aja	AJA	Artibeus jamaicensis	9417
asu	ASU	Ascaris suum	6253
age	AGE	Ateles geoffroyi	9509
ama	AMA	Avicennia marina	82927
bpcv1	VRL	Bandicoot papillomatosis carcinomatosis virus type 1	479058
bpcv2	VRL	Bandicoot papillomatosis carcinomatosis virus type 2	500654
bkv	VRL	BK polyomavirus	10629
bmo	BMO	Bombyx mori	7091
bta	BTA	Bos taurus	9913
bfv	VRL	Bovine foamy virus	207343
bhv1	VRL	Bovine herpesvirus 1	10320
bhv5	VRL	Bovine herpesvirus 5	35244
blv	VRL	Bovine leukemia virus	11901
bdi	BDI	Brachypodium distachyon	15368
bbe	BBE	Branchiostoma belcheri	7741
bfl	BFL	Branchiostoma floridae	7739
bna	BNA	Brassica napus	3708
bol	BOL	Brassica oleracea	3712
bra	BRA	Brassica rapa	3711
bma	BMA	Brugia malayi	6279
bcy	BCY	Bruguiera cylindrica	106616
bgy	BGY	Bruguiera gymnorhiza	39984
cbn	CBN	Caenorhabditis brenneri	135651
cbr	CBR	Caenorhabditis briggsae	6238
cel	CEL	Caenorhabditis elegans	6239
crm	CRM	Caenorhabditis remanei	31234
cfa	CFA	Canis familiaris	9615
cte	CTE	Capitella teleta	283909
chi	CHI	Capra hircus	9925
cpa	CPA	Carica papaya	3649
cla	CLA	Cerebratulus lacteus	6221
cre	CRE	Chlamydomonas reinhardtii	3055
cin	CIN	Ciona intestinalis	7719
csa	CSA	Ciona savignyi	51511
ccl	CCL	Citrus clementina	85681
crt	CRT	Citrus reticulata	85571
csi	CSI	Citrus sinensis	2711
ctr	CTR	Citrus trifoliata	37690
cgr	CGR	Cricetulus griseus	10029
cme	CME	Cucumis melo	3656
cqu	CQU	Culex quinquefasciatus	7176
cln	CLN	Cunninghamia lanceolata	28977
cca	CCA	Cynara cardunculus	4265
ccr	CCR	Cyprinus carpio	7962
dre	DRE	Danio rerio	7955
dpu	DPU	Daphnia pulex	6669
ddi	DDI	Dictyostelium discoideum	44689
dpr	DPR	Digitalis purpurea	4164
dan	DAN	Drosophila ananassae	7217
der	DER	Drosophila erecta	7220
dgr	DGR	Drosophila grimshawi	7222
dme	DME	Drosophila melanogaster	7227
dmo	DMO	Drosophila mojavensis	7230
dpe	DPE	Drosophila persimilis	7234
dps	DPS	Drosophila pseudoobscura	7237
dse	DSE	Drosophila sechellia	7238
dsi	DSI	Drosophila simulans	7240
dvi	DVI	Drosophila virilis	7244
dwi	DWI	Drosophila willistoni	7260
dya	DYA	Drosophila yakuba	7245
dev	VRL	Duck enteritis virus	104388
egr	EGR	Echinococcus granulosus	6210
emu	EMU	Echinococcus multilocularis	6211
esi	ESI	Ectocarpus siliculosus	2880
egu	EGU	Elaeis guineensis	51953
ebv	VRL	Epstein Barr virus	10376
efu	EFU	Eptesicus fuscus	29078
eca	ECA	Equus caballus	9796
far	FAR	Festuca arundinacea	4606
fru	FRU	Fugu rubripes	31033
gga	GGA	Gallus gallus	9031
gpy	GPY	Glottidia pyramidata	34515
gma	GMA	Glycine max	3847
gso	GSO	Glycine soja	3848
ggo	GGO	Gorilla gorilla	9593
gar	GAR	Gossypium arboreum	29729
ghb	GHB	Gossypium herbaceum	34274
ghr	GHR	Gossypium hirsutum	3635
gra	GRA	Gossypium raimondii	29730
gsa	GSA	Gyrodactylus salaris	37629
hco	HCO	Haemonchus contortus	6289
hru	HRU	Haliotis rufescens	6454
han	HAN	Helianthus annuus	4232
har	HAR	Helianthus argophyllus	73275
hci	HCI	Helianthus ciliaris	73280
hex	HEX	Helianthus exilis	400408
hpa	HPA	Helianthus paradoxus	73304
hpe	HPE	Helianthus petiolaris	4234
htu	HTU	Helianthus tuberosus	4233
hme	HME	Heliconius melpomene	34740
hbv	VRL	Herpes B virus	10325
hsv1	VRL	Herpes Simplex Virus 1	10298
hsv2	VRL	Herpes Simplex Virus 2	10310
hvt	VRL	Herpesvirus of turkeys	37108
hvsa	VRL	Herpesvirus saimiri strain A11	570519
hbr	HBR	Hevea brasiliensis	3981
hhi	HHI	Hippoglossus hippoglossus	8267
hsa	HSA	Homo sapiens	9606
hvu	HVU	Hordeum vulgare	4513
hcmv	VRL	Human cytomegalovirus	10359
hhv6b	VRL	Human herpesvirus 6B	32604
hiv1	VRL	Human immunodeficiency virus 1	11676
hma	HMA	Hydra magnipapillata	6085
ipu	IPU	Ictalurus punctatus	7998
iltv	VRL	Infectious laryngotracheitis virus	10386
isc	ISC	Ixodes scapularis	6945
jcv	VRL	JC polyomavirus	10632
kshv	VRL	Kaposi sarcoma-associated herpesvirus	37296
lla	LLA	Lagothrix lagotricha	9519
lca	LCA	Lemur catta	9447
lco	LCO	Leucosolenia complicata	433461
lus	LUS	Linum usitatissimum	4006
lmi	LMI	Locusta migratoria	7004
lgi	LGI	Lottia gigantea	225164
lja	LJA	Lotus japonicus	34305
lva	LVA	Lytechinus variegatus	7654
mml	MML	Macaca mulatta	9544
mne	MNE	Macaca nemestrina	9545
meu	MEU	Macropus eugenii	9315
mdm	MDM	Malus domestica	3750
mse	MSE	Manduca sexta	7130
mes	MES	Manihot esculenta	3983
mdv1	VRL	Mareks disease virus type 1	10390
mdv2	VRL	Mareks disease virus type 2	36353
mja	MJA	Marsupenaeus japonicus	27405
mtr	MTR	Medicago truncatula	3880
mcv	VRL	Merkel cell polyomavirus	493803
mdo	MDO	Monodelphis domestica	13616
mcmv	VRL	Mouse cytomegalovirus	10366
mghv	VRL	Mouse gammaherpesvirus 68	33708
mmu	MMU	Mus musculus	10090
ngi	NGI	Nasonia giraulti	7426
nlo	NLO	Nasonia longicornis	7427
nvi	NVI	Nasonia vitripennis	7425
nve	NVE	Nematostella vectensis	45351
nta	NTA	Nicotiana tabacum	4097
odi	ODI	Oikopleura dioica	34765
oha	OHA	Ophiophagus hannah	8665
oan	OAN	Ornithorhynchus anatinus	9258
ocu	OCU	Oryctolagus cuniculus	9986
osa	OSA	Oryza sativa	4530
ola	OLA	Oryzias latipes	8090
oar	OAR	Ovis aries	9940
ppa	PPA	Pan paniscus	9597
ptr	PTR	Pan troglodytes	9598
prd	PRD	Panagrellus redivivus	6233
pgi	PGI	Panax ginseng	4054
pol	POL	Paralichthys olivaceus	8255
pmi	PMI	Patiria miniata	46514
pma	PMA	Petromyzon marinus	7757
pti	PTI	Phaeodactylum tricornutum	2850
pvu	PVU	Phaseolus vulgaris	3885
ppt	PPT	Physcomitrella patens	3218
pin	PIN	Phytophthora infestans	4787
pra	PRA	Phytophthora ramorum	164328
psj	PSJ	Phytophthora sojae	67593
pab	PAB	Picea abies	3329
pde	PDE	Pinus densata	190402
pta	PTA	Pinus taeda	3352
pxy	PXY	Plutella xylostella	51655
ppy	PPY	Pongo pygmaeus	9600
peu	PEU	Populus euphratica	75702
ptc	PTC	Populus trichocarpa	3694
ppc	PPC	Pristionchus pacificus	54126
ppe	PPE	Prunus persica	3760
prv	VRL	Pseudorabies virus	10345
pbi	PBI	Pygathrix bieti	61621
rno	RNO	Rattus norvegicus	10116
rgl	RGL	Rehmannia glutinosa	99300
rlcv	VRL	Rhesus lymphocryptovirus	45455
rrv	VRL	Rhesus monkey rhadinovirus	703611
rmi	RMI	Rhipicephalus microplus	6941
rco	RCO	Ricinus communis	3988
sof	SOF	Saccharum officinarum	4547
ssp	SSP	Saccharum sp.	15819
sko	SKO	Saccoglossus kowalevskii	10224
sla	SLA	Saguinus labiatus	78454
ssa	SSA	Salmo salar	8030
ssl	SSL	Salvia sclarea	38869
sha	SHA	Sarcophilus harrisii	9305
sja	SJA	Schistosoma japonicum	6182
sma	SMA	Schistosoma mansoni	6183
sme	SME	Schmidtea mediterranea	79327
smo	SMO	Selaginella moellendorffii	88036
sv40	VRL	Simian virus 40	10633
sly	SLY	Solanum lycopersicum	4081
stu	STU	Solanum tuberosum	4113
sbi	SBI	Sorghum bicolor	4558
smr	SMR	Strigamia maritima	126957
spu	SPU	Strongylocentrotus purpuratus	7668
str	STR	Strongyloides ratti	34506
ssc	SSC	Sus scrofa	9823
sci	SCI	Sycon ciliatum	27933
ssy	SSY	Symphalangus syndactylus	9590
tgu	TGU	Taeniopygia guttata	59729
tre	TRE	Terebratulina retusa	7580
tur	TUR	Tetranychus urticae	32264
tni	TNI	Tetraodon nigroviridis	99883
tcc	TCC	Theobroma cacao	3641
tca	TCA	Tribolium castaneum	7070
tae	TAE	Triticum aestivum	4565
ttu	TTU	Triticum turgidum	4571
tch	TCH	Tupaia chinensis	246437
vun	VUN	Vigna unguiculata	3917
vvi	VVI	Vitis vinifera	29760
xla	XLA	Xenopus laevis	8355
xtr	XTR	Xenopus tropicalis	8364
xbo	XBO	Xenoturbella bocki	242395
zma	ZMA	Zea mays	4577

CentOS7建立FTP站点

发表于 2014 年 12 月 23 日由 yuyin110

ftp站点相对于http站点，具有共享文件方便的特点，经过一段时间的折磨，终于算是弄好了。现简单记录一下其过程，以备忘。
1、安装ftp和vsftpd
rpm -q vsftpd ###查看是否安装vsftpd没有安装的话执行下面的命令
yum -y install vsftpd && ftp
chkconfig vsftpd on #####设置开机启动

2、建立和修改ftp用户
安装ftp后系统内会添加一个名称为ftp的用户，通过”vim /etc/passwd”可以查看到，该用户的默认目录为”/var/ftp”，可以勇冠”usermod -d /home/ftp ftp”可以将ftp的用户目录改为”/home/ftp”，并修改目录权限为不可写”chmod -R 555 /home/ftp”。这个非常必要，否则登录不上，即使在后面的vsftpd.conf中设置了也会登录不上，除非关闭selinux，这是vsftp基于安全的考虑，至于其它的设置方法现在还不是很清楚。修改用户”ftp”的密码，”passwd ftp”，会提示输入新密码，重复输入一次就可以了。

3、配置vsftpd.conf
打开vsftpd.conf”vim /etc/vsftpd/vsftpd.conf”，在后面添加
userlist_file=/etc/vsftpd/vftpuser.txt
virtual_use_local_privs=YES
guest_enable=YES
guest_username=ftp
pasv_enable=YES
pasv_min_port=50000
pasv_max_port=60000
chroot_local_user=YES
chroot_list_enable=YES
chroot_list_file=/etc/vsftpd/chroot_list
并分别在/etc/vsftpd/vftpuser.txt、chroot_list、user_list中添加用户”ftp”（加一行ftp就行），如果不存在上述文件，就先创建后添加。

4、配制防火墙
vi /etc/sysconfig/iptables
添加下面几行
-A INPUT -p icmp -j ACCEPT
-A INPUT -i lo -j ACCEPT
-A OUTPUT -i lo -j ACCEPT
-A INPUT -m state –state ESTABLISHED -j ACCEPT
-A OUTPUT -m state –state ESTABLISHED -j ACCEPT
-P INPUT DROP
-P OUTPUT DROP
-A INPUT -p tcp -m state –state NEW -m tcp –dport 21 -j ACCEPT
-A INPUT -p tcp –dport 50000:60000 -j ACCEPT
-A OUTPUT -p tcp -m state –state NEW -m tcp –dport 21 -j ACCEPT

重新启动iptables和vsftpd就可以了（systemctl restart iptables.service && service vsftpd restart）。
如果是IE浏览器就用”ftp://ftp:密码@你主机的ip地址”登录，添加其它用户只需要创建用户后在vftpuser.txt、chroot_list、user_list中添加相应的用户名就可以了。

CentOS7 安装php5.6+nginx1.7.5

发表于 2014 年 11 月 7 日由 yuyin110

由于版本的变化最新的php和nginx安装与配置和前面版本的有稍许差异，首先卸载旧版本，下载最新的软件的软体安装包，安装方法可以参照centos 7 min 编译安装php5.6+nginx1.7.5 笔记这里主要补充一点，就是怎样在nginx中运行php的问题。如果是想单独建一个www的用户的话，上面的安装的基础上需要做如下修改。
1、创建www用户
groupadd www
useradd -g www www -s /bin/false
2、修改nginx.conf配置文件
vi /usr/local/nginx/conf/nginx.conf
user www www; #首行user去掉注释,修改Nginx运行组为www www；必须与/usr/local/php/etc/php-fpm.conf中的user,group配置相同，否则php运行出错，具体方法是打开php-fpm.conf文件，如果在上面路径中找不到这个文件，就在安装包里面找到复制到这里，找到有user和group的行，去掉前面的;号，将nobody改为www。
3、重启nginx和php-fpm
nginx -s reload
/usr/local/php/sbin/php-fpm
4、测试
在www用户目录下创建test.php文件，输入;在浏览器中找开就可以看到PHP配置情况。

centOS7 安装mysql5.6

发表于 2014 年 10 月 22 日由 yuyin110

因为mysql被Oracle收购后会逐渐走向收费，为避免以后的版权纠纷，centos7已经不支持mysql，而是内部集成mariadb代替，而安装mysql的话会和mariadb产生文件冲突，所以安装mysql前要先卸载mariadb。
1、卸载mariadb
rpm -e mariadb-libs-5.5.37-1.el7_0.x86_64
###会提示错误：依赖检测失败
###加上–nodeps参数强制卸载
rpm -e –nodeps mariadb-libs-5.5.37-1.el7_0.x86_64
如果找不到就用yum -y remove mariadb-libs.x86_64
2、下载mysql5.6
centos7等同与Red Hat7，下载此版本下的MySQL-client-5.6.21-1.el7.x86_64 .rpm 和MySQL-server-5.6.21-1.el7.x86_64.rpm就可以了，如果点击Download会提示你要先登录Oracle帐户，如果没有帐户或者不想登录，在其它地方下载相同的包也可以，如果不想在其它地方找又没有Oracle帐户，顺便注册一个就可以了。
如果嫌麻烦，也可一个FTP站点下载，里面包含了几乎所有的mysql版本。
3、安装mysql
进入到安装包所在目录
rpm -ivh MySQL-client-5.6.21-1.el7.x86_64.rpm
rpm -ivh MySQL-server-5.6.21-1.el7.x86_64.rpm
也可从源代码安装，不过先得安装cmake，软件包为mysql-5.6.24.tar.gz
cmake . -DCMAKE_INSTALL_PREFIX=/usr/local/mysql -DMYSQL_DATADIR=/data/mysql -DSYSCONFDIR=/etc
make
make install
4、生成mysql系统数据库
如果你马上登录mysql会提示找不到/var/lib/mysql/下的sock文件，因为还没有生成系统数据库。
mysql_install_db –user=mysql –basedir=/usr/share/mysql
###生成mysql系统数据库
5、登录mysql
mysql_install_db –random-passwords
###生成随机密码
随机密码保存在$HOME/.mysql_secret文件中，打开这个文件，找到密码。
mysql -u=root -p
###登录mysql，输入随机密码
6、修改root密码
mysql> SET PASSWORD FOR root@localhost=PASSWORD(‘yourpassword’);
###这时不要想着运行其它语句，初次登录时只能改密码
退出mysql
7、添加用户和数据库
用新密码重新登录数据库，创建用户和数据库

荷兰极有可能又是第二

发表于 2014 年 6 月 27 日由 yuyin110

看了一下巴西世界杯淘汰赛赛程，发现在决赛前，唯一对荷兰有威胁的是阿根廷，极有可能在1/4决赛中遭遇，但感觉阿根廷球风比较飘，远没有荷兰狠，荷兰拿下阿根廷应该没有问题。另外一边，巴西强劲的对手有很多，法国、德国乌拉圭，甚至智利都会对巴西构成威胁，但因为是东道主，按照传统，应该会“保送”到至少半决赛，所以我估计决赛很可能是巴西和荷兰对阵，但要想荷兰击败巴西，只能靠天照顾了，但要知道，老天是不怎么喜欢荷兰当老大的，所以荷兰又只能屈居老二了。

基因注释

发表于 2014 年 6 月 18 日由 yuyin110

很多人觉得基因注释很高深，特别对于那些不太懂编程的来说，感到无从下手，去年我也折腾了差不多半年，最后发现也就那么回事。一开始我是找各种基因注释的工具，例如研究geneontology自带的perl程序，里面涉及了众多模板，而且是模块里面又有模块，运行时不是少了这个模块就是那个模块有问题，最后折腾了两三个月也没有得到理想结果。后来用了blast2go这个程序用起来是没有问题，可实在是太慢，几个小时下去，泡都不冒一个。最后默默在躺在床上反思，我的目的是什么，注释的原理是什么。按照这个思路，慢慢的去找这些问题的答案，最后终于开窍了，想明白了真的好简单，现将思路简单归纳如下：
1、基因注释方法
1）根据已注释的信息，利用序列相似性原则，去注释未知序列。
2）查找文献资料注释基因功能。
基因批量注释的话都是采用第一种。
2、所需资料
1）将需要注释的序列翻译成氨基酸序列；
2）下载现有的已注释的蛋白序列（uniprot_sprot.fasta.gz，文件大小为78MB）；
3)下载联系蛋白序号和注释号（GO的accession）的文件（idmapping.td.gz，文件大小为2.17G）;
4)下载最新的GO数据库文件assocdb-data.gz；
3、注释方法
1）利用formatdb格式化已注释的蛋白序列为blast库；
2）将需要注释的序列与blast库做blast;
3）找到与需注释序列相似度高的蛋白序列号；
4）找到这些蛋白序列号对应的注释号（GO号）；
5）用GO号在GO数据库文件中的term表中找到注释信息或者在geneontology官网用GO号就可以查到详细的注释信息；

如果用NCBI数据库，方法也差不多，先下载已注释的蛋白序列，格式化数据成blast库，将需注释的序列与这个blast库比对，找到相似度高的已注释的蛋白序列号，用此序列号用NCBI中gene_info.gz和gene2access找到蛋白序列的gene号,然后将此号用gene2go数据找到go号，最后用go号找到其注释信息就行了。

如果按照以上方法操作的话，其实基因注释非常简单，几乎只要做个blast，然后将信息对应过来就可以了，远没有那么复杂。

生物信息博客

渡人，渡心，渡已