SnpEff安装和使用中的问题

SnpEff 软件通过基因组序列和注释文件对VCF文件中的SNP/InDel信息进行注释的软件,即主要解释了SNP/InDel是否能够对编码蛋白基因造成影响。关于snpEff使用和安装的文章很多了(如SnpEff使用方法SnpEFF注释vcf-笔记),我这里就不再列出了,主要晒晒我在安装和使用过程中踩过的坑。

一、版本下载的问题。在这个页面有所有snpEff的版本,第一次我下了排在最前面的snpEff_v4_5covid19_core.zip,后面在安装数据库时,发现所有常见物种的数据库都安装不了,后面看到这个包的前缀才知道是covid19版本的,只有covid19的库,想重新下一个,怎奈下载速度实在是太慢,只能放弃了。用这个版本自建了个库,发现可以用。所以下载包时要注意。

二、建库。

我使用的是NCBI中的拟南芥参考数据库建的库,先是用的基因组序列和gtf文件,用的下面代码。

java -jar ~/snpEff/snpEff.jar build -c ~/snpEff/snpEff.config -gtf22 -v AT_10

但是当使用的时候出现了下列错误:

java.lang.RuntimeException: java.lang.RuntimeException: File not found on the server. Make sure the database name is correct.

也没找到是什么原因,后来想想NCBI注释文件一直使用的gff3的文件,参考数据库中所带的gft文件可能不太对。所以就换了gff3的注释文件重新建库,果然可以了。

java -jar ~/snpEff/snpEff.jar build -c ~/snpEff/snpEff.config -gff -v AT_10

最后运行分析程序就可以了。

java -Xmx10G -jar ~/snpEff/snpEff.jar eff -c ~/snpEff/snpEff.config AT_10 positive.vcf > positive.snp.eff.vcf

对于结果解读可以参考这篇文章(SnpEff结果解读)。

发表评论

邮箱地址不会被公开。