基因注释

很多人觉得基因注释很高深,特别对于那些不太懂编程的来说,感到无从下手,去年我也折腾了差不多半年,最后发现也就那么回事。一开始我是找各种基因注释的工具,例如研究geneontology自带的perl程序,里面涉及了众多模板,而且是模块里面又有模块,运行时不是少了这个模块就是那个模块有问题,最后折腾了两三个月也没有得到理想结果。后来用了blast2go这个程序用起来是没有问题,可实在是太慢,几个小时下去,泡都不冒一个。最后默默在躺在床上反思,我的目的是什么,注释的原理是什么。按照这个思路,慢慢的去找这些问题的答案,最后终于开窍了,想明白了真的好简单,现将思路简单归纳如下:
1、基因注释方法
1)根据已注释的信息,利用序列相似性原则,去注释未知序列。
2)查找文献资料注释基因功能。
基因批量注释的话都是采用第一种。
2、所需资料
1)将需要注释的序列翻译成氨基酸序列;
2)下载现有的已注释的蛋白序列(uniprot_sprot.fasta.gz,文件大小为78MB);
3)下载联系蛋白序号和注释号(GO的accession)的文件(idmapping.td.gz,文件大小为2.17G);
4)下载最新的GO数据库文件assocdb-data.gz
3、注释方法
1)利用formatdb格式化已注释的蛋白序列为blast库;
2)将需要注释的序列与blast库做blast;
3)找到与需注释序列相似度高的蛋白序列号;
4)找到这些蛋白序列号对应的注释号(GO号);
5)用GO号在GO数据库文件中的term表中找到注释信息或者在geneontology官网用GO号就可以查到详细的注释信息;

如果用NCBI数据库,方法也差不多,先下载已注释的蛋白序列,格式化数据成blast库,将需注释的序列与这个blast库比对,找到相似度高的已注释的蛋白序列号,用此序列号用NCBI中gene_info.gz和gene2access找到蛋白序列的gene号,然后将此号用gene2go数据找到go号,最后用go号找到其注释信息就行了。

如果按照以上方法操作的话,其实基因注释非常简单,几乎只要做个blast,然后将信息对应过来就可以了,远没有那么复杂。

基因数据库下载

下面是Ensembl上的基因数据库下载,主要是哺乳动物,包括基因组序列,核酸序列,蛋白序列,及这些序列在EMBL和NCBI上的注释,还有提供的MYSQL数据库文件,并对物种名称做了一下简单的翻译,方便查找。如果要查找更详细的情况,可以直接上EMBL的网站。 继续阅读

如何利用MACS注释和可视化ChIP-seq结果

基因注释离不开转录因子和组蛋白修饰位点的研究。染色质免疫共沉淀技术(Chromatin Immunoprecipitation,ChIP)是研究蛋白质与DNA相互作用的最常用的工具。相对应的ChIP-seq是用ChIP技术将目标蛋白与染色质连结起来,然后用超声波打碎基因组,添加与目标蛋白特异结合的抗体,从而形成抗体、目标蛋白、结合DNA形成的沉淀免疫结合体,分离这些结合体,将DNA分子从结合体中洗下,纯化,然后进行深度测序,所得到的测序结果就是ChIP-seq。 继续阅读