POLCA安装与使用

发表于 2022 年 9 月 19 日由 yuyin110

POLCA是约翰霍普金斯大学MaSuRCA (Maryland Super Read Cabog Assembler)项目中组装基因组序列polishing 工具，是 MaSuRCA 的子程序，所以安装 MaSuRCA 可以顺便把POLCA安装了。

MaSuRCA 对perl版本要求比较高，我原来的perl 5.26版本的不行，安装 MaSuRCA时显示 <stdio.h> 库不正确，就在本地安装了一个最新的perl版本5.34, 下载perl-5.34.1.tar.gz 解压后运行 ‘./Configure -des -Dprefix=$HOME/local/perl5.34’（在本用户local目录下安装），然后编译, ‘make instll’,perl就安装好了，最后将新安装的perl加入到环境变量中去（修改 .bashrc文件）.
下载并安装MaSuRCA

wget https://github.com/alekseyzimin/masurca/releases/download/v4.0.9/MaSuRCA-4.0.9.tar.gz
tar xzvf MaSuRCA-4.0.9.tar.gz
cd ./MaSuRCA-4.0.9
sh install.sh
ln -s ~/soft/MaSuRCA-4.0.9/bin/polca.sh ~/bin/polca.sh

3. 运行polca

polca.sh -a draft.fasta -r 'short_reads_1.fq.gz short_reads_2.fq.gz' -t 15 -m 20G &

draft.fasta为需要polishing的基因组，-r后接的二代测序的fastq格式的测序文件，-t后面设置的使用的线程数目，-m后为所使用的最大内存。

RepeatMasker输出结果中out文件格式解析

发表于 2021 年 2 月 20 日由 yuyin110

运行完RepeatMasker后一般会生成*.cat.gz, *.masked, *.out, *.out.gff, *.out.html, *.tbl, *.finder.scn等文件，其中*.out文件最为重要，也不是很好理解，现将各列所表示的意思列出如下：

以上结果参考官方文档：http://www.repeatmasker.org/DupMaskerDownload.html

Galaxy介绍

发表于 2021 年 2 月 5 日由 yuyin110

galaxy是一个很好的生信云平台，云平台也是今后的趋势，毕竟在本地安装各种各样的软件实在是太折腾人了。网址：https://usegalaxy.org/ 。如果想用的话可以看官方操作说明。简单的操作可以看这篇博客。

admixture的安装

发表于 2021 年 1 月 12 日由 yuyin110

由于admixture软件下载（http://software.genetics.ucla.edu/admixture/download.html ）地址打不开了，所以admixture无法从原网址下，尝试使用了

conda install admixture

还是不行，最后想到admixture是生物信息软件，应该用专用的生物类的conda下载，试了下，果然OK。

conda install -c bioconda admixture

Blast+本地化及使用方法

发表于 2015 年 9 月 24 日由 yuyin110

原来一直用blast的，但NCBI已停止了对blast的更新，而强力推荐使用blast+,这次因为要做blast的数据量比较大，所以试了一下blast+，同时也用blast做了一下，发现blast+果然要快得多，看来习惯要改变了。其实blast+和blast的原理差不多，只不过程序参数和名称有了点变化而已，现简要介绍一下其本地化的方法：
1、下载最新版的程序，根据自己的系统选择合适的版本。
2、解压后进入程序目录……ncbi-blast-2.2.31+/bin，各个程序的功能说明可以参考我的另外一篇博客。
3、各程序的参数说明可以用自带的help，例如想查blastx的参数说明可以用： ./blastx -help
4、做blast前一般要先格式化数据库，除非只是几个序列之间的比对，例如格式化一个蛋白数据库可以用下列参数：
$HOME/……/ncbi-blast-2.2.31+/bin/makeblastdb -in uniprot_sport -dbtype prot -input_type fasta -parse_seqids -hash_index
主要几个程序的使用例子：
blastp -query protein.fa -out /protein.output -db dbname -outfmt 0 -evalue 1e-3 -max_target_seqs 20
blastn -query nucl.fa -out output -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
blastx -query nucl.fa -out output -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
参数说明:
-query：输入文件路径及文件名
-out：输出文件路径及文件名
-db：格式化了的数据库路径及数据库名
-outfmt：输出文件格式，2.2.31版共有14种格式，6是tabular格式对应BLAST的m8格式
-evalue：设置输出结果的e-value值
-max_target_seqs：找到的最大的目标的数目，也可用-num_descriptions，tabular格式输出结果的条数

最新Boost和bjam的快捷安装

发表于 2013 年 11 月 19 日由 yuyin110

boost是一个可移植，能提供源代码的C++库，是C++标准化进程的引擎之一，由C++标准委员会工作组成员发起。最近因为要安装cufflinks（分析转录本数据的程序），但cufflinks是依附于boost的，所以得先安装boost，而安好boost后需要bjam编译，网上找了一些bjam安装教程，但大多是以前版本的，我安的是最新的boost_1_55_0,这些教程都不适用，而且最新的bjam是boost-jam-3.1.18.tgz，在这个版本之后就不再更新了，用这个bjam编译显示与boost版本不一致，说明这种方法不行，凭借多年搞程序的经验（不排除运气成分），运行了一下boost_1_55_0中的./bootstrap.sh程序，bjam就出现了boost中自身就带了bjam程序，同时产生了一个b2的可执行程序，./bjam –toolset=gcc link=static runtime-link=static install ,下面简单介绍一下一些主要参数的含义：
1、toolset：指定编译器，如gcc, msvc, msvc-9.0, borland等；
2、prefix/stagedir：stage时使用stagedir，install时使用prefix，指定编译生成的路径（如–prefix=”./bjam/”，如果不指定，默认为/usr/local/）；
3、link：生成动态链接库或者静态链接库，shared为动态，static为静态，动态库本身只是一些索引，本身没有库文件，要用到的时候根据这些索引可以找到这些库文件，静态是已包含全部库文件，如果硬盘条件允许的话建议用静态，如果用到的库文件不是很多而且不想浪费太多资源的话就用动态；
4、runtime-link：程序运行时采用的库，同样包含动态(shared)和静态(static)两种；
5、stage/install：stage表示只生成库(dll和lib），install还会生成包含头文件的include目录；
6、withou/with：不编译或者编译哪些库；

linux 安装和使用NCBI剪接边界工具splign

发表于 2013 年 9 月 21 日由 yuyin110

splign是NCBI中一个比对cDNA和genome的一个工具，通过splign可以很方便的找到cDNA各个外显子。Windows下安装非常简单，下载后就可以直接用了，但linux版本下运行需要一些相关的包，下面介绍一下splign在linux下的安装和使用（windows中splign的使用和linux一样）。
首先下载相应的版本，我的linux系统是ubuntu 64位的，下载Linux x64，解压”gunzip splign”，修改文件属性为可执行文件”chomd 777 splign”，试着运行一下”./splign”，一般会报错”splign: error while loading shared libraries: libpcre.so.0: cannot open shared object file: No such file or directory”，那是因为缺少模块 “libpcre.so.0″，应下载安装pcre包（pcre-8.21）。继续阅读 →

Bowtie使用介绍

发表于 2013 年 3 月 21 日由 yuyin110

Bowtie（下载）是一个超级快速的，较为节省内存的短序列拼接至模板基因组的工具。它在拼接35碱基长度的序列时，可以达到每小时2.5亿次的拼接速度。Bowtie并不是一个简单的拼接工具，它不同于Blast等。它适合的工作是将小序列比对至大基因组上去。它最长能读取1024个碱基的片段。换言之，bowtie非常适合下一代测序技术。
继续阅读 →

FTP下载工具Filezilla介绍

发表于 2012 年 9 月 19 日由 yuyin110

对于搞生物信息学的，有很多公共资源都可以通过FTP下载到，选择一个给力的FTP下载工具尤为重要，经过这么多年的使用体会，觉得Filezilla[软件下载]非常不错，界面简单易用，软件体积小，支持续传，关键还是免费。对于可以免费下载的资源，只需要在主机边输入ftp地址，其它的都不需要变，点击“快速连接”就可以了。如果连接断开，再点一下快速连接，选择默认的“放弃之前的连接并在当前标签中连接”，“确定”就行了。

生物信息博客

渡人，渡心，渡已

分类目录归档：软件