Typora正式启用

发表于 2022 年 5 月 15 日由 yuyin110

今天正式上手Typora，感觉简单方便，非常好用，打算以后博客就用它来写了，论文也用它来写，笔记也指望它了，特此为记。

NCBI测序原始数据上传

发表于 2022 年 5 月 15 日由 yuyin110

具体操作可以参照这篇博客，这里只补充几点。

1、申请登录号顺序

建议首先申请Biosample号，再申请BioProject号，最后申请SRA号。在第二步的过程中只需要填写第一个Biosample号就可以了。也可以先申请BioProject号，Biosample号先空着，再申请Biosample号，然后在填表中”bioproject_accession”填上申请的BioProject号就可以了。

2、填表的疑问

遇到最多的问题就是sample_name通不过，按照参考中的方法在最后添加一列“replicate”，然后填上对应的replicate描述就可以了。在填写“collection_date”时也应注意要使用标准日期格式，如“2021-07-01”，不能把月份和日期前面的0省略。“geo_loc_name”这栏填写上传样品基因型的位置，国家要采用标准的国家名称，后面跟冒号和省份，也可以不加。

在填写”SRA_metadata_acc”表时，”library_ID”可以自己编一个，不能重复，”title” 填写样品描述信息，可以采用如以下格式“RNA-Seq of organism: cultivar tissue”，“design_description”可以填写实验设计时的信息，如”control，replication 1″，”Treatment，replication 1″。

3、测序原始数据上传

建议使用Aspera上传，特别是数据量比较大时。可以参考这篇文章的方法，不过需要特别注意的最好上传文件夹，里面包含了所有需要上传的测序文件，不然是上传到根目录了，不能显示，费半天劲白传了。可以参考我的这个代码。”samples_dir”为包含测序文件的文件夹，“root_link”为NCBI提供的链接，点“Aspera Command-Line upload”右边的加号就会出现，一般是邮箱加密钥。一般是上传完成后10分钟才会看到结果。

nohup ~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -QT -l100m -k1 -d ~/data/transcriptome/samples/fleshed/samples_dir subasp@upload.ncbi.nlm.nih.gov:uploads/root_link &

RepeatMasker输出结果中out文件格式解析

发表于 2021 年 2 月 20 日由 yuyin110

运行完RepeatMasker后一般会生成*.cat.gz, *.masked, *.out, *.out.gff, *.out.html, *.tbl, *.finder.scn等文件，其中*.out文件最为重要，也不是很好理解，现将各列所表示的意思列出如下：

以上结果参考官方文档：http://www.repeatmasker.org/DupMaskerDownload.html

辛丑年大年初一晨

发表于 2021 年 2 月 12 日由 yuyin110

Galaxy介绍

发表于 2021 年 2 月 5 日由 yuyin110

galaxy是一个很好的生信云平台，云平台也是今后的趋势，毕竟在本地安装各种各样的软件实在是太折腾人了。网址：https://usegalaxy.org/ 。如果想用的话可以看官方操作说明。简单的操作可以看这篇博客。

admixture的安装

发表于 2021 年 1 月 12 日由 yuyin110

由于admixture软件下载（http://software.genetics.ucla.edu/admixture/download.html ）地址打不开了，所以admixture无法从原网址下，尝试使用了

conda install admixture

还是不行，最后想到admixture是生物信息软件，应该用专用的生物类的conda下载，试了下，果然OK。

conda install -c bioconda admixture

人生就像一场跑步

发表于 2021 年 1 月 9 日由 yuyin110

安装R包遇到的几点问题

发表于 2021 年 1 月 8 日由 yuyin110

1 Warning in install.packages : cannot remove prior installation of package

因为可能打开了安装这个包相关的包，重启R，重新安装。

2 namespace ‘rlang’ 0.4.6 is already loaded, but >= 0.4.7 is required

先卸载掉旧的，再安装新的。

remove.packages("rlang")
install.packages("rlang")

SnpEff安装和使用中的问题

发表于 2021 年 1 月 2 日由 yuyin110

SnpEff 软件通过基因组序列和注释文件对VCF文件中的SNP/InDel信息进行注释的软件，即主要解释了SNP/InDel是否能够对编码蛋白基因造成影响。关于snpEff使用和安装的文章很多了（如SnpEff使用方法，SnpEFF注释vcf-笔记），我这里就不再列出了，主要晒晒我在安装和使用过程中踩过的坑。

一、版本下载的问题。在这个页面有所有snpEff的版本，第一次我下了排在最前面的snpEff_v4_5covid19_core.zip，后面在安装数据库时，发现所有常见物种的数据库都安装不了，后面看到这个包的前缀才知道是covid19版本的，只有covid19的库，想重新下一个，怎奈下载速度实在是太慢，只能放弃了。用这个版本自建了个库，发现可以用。所以下载包时要注意。

二、建库。

我使用的是NCBI中的拟南芥参考数据库建的库，先是用的基因组序列和gtf文件，用的下面代码。

java -jar ~/snpEff/snpEff.jar build -c ~/snpEff/snpEff.config -gtf22 -v AT_10

但是当使用的时候出现了下列错误：

java.lang.RuntimeException: java.lang.RuntimeException: File not found on the server. Make sure the database name is correct.

也没找到是什么原因，后来想想NCBI注释文件一直使用的gff3的文件，参考数据库中所带的gft文件可能不太对。所以就换了gff3的注释文件重新建库，果然可以了。

java -jar ~/snpEff/snpEff.jar build -c ~/snpEff/snpEff.config -gff -v AT_10

最后运行分析程序就可以了。

java -Xmx10G -jar ~/snpEff/snpEff.jar eff -c ~/snpEff/snpEff.config AT_10 positive.vcf > positive.snp.eff.vcf

对于结果解读可以参考这篇文章（SnpEff结果解读）。

CIRCOS快速安装

发表于 2020 年 11 月 26 日由 yuyin110

因要画圈图来展现测序获得的SNP的密度和质量，打算用用这个原来见过无数次但都没有用过的circos（听说非常强大）。

其实官网上已经给出了详细的安装教程，没有必要重复列出，这里主要说一下需要注意的问题。先简要说一下安装的顺序。

1、下载 circos （建议去官网下载）。

2、解压circos-current.tgz, 进入到解压后的文件，打开bin这个文件夹，运行

> circos -modules
ok       1.26 Carp
ok       0.37 Clone
ok       2.50 Config::General
ok       3.33 Cwd
ok      2.145 Data::Dumper
ok       2.52 Digest::MD5
ok       2.76 File::Basename
ok       3.33 File::Spec::Functions
ok       0.22 File::Temp
ok       1.49 FindBin
ok       0.39 Font::TTF::Font
ok       2.43 GD
ok        0.2 GD::Polyline
ok       2.37 Getopt::Long
ok       1.14 IO::File
ok       0.33 List::MoreUtils
ok       1.38 List::Util
ok       0.01 Math::Bezier
ok       1.59 Math::BigFloat
ok       0.06 Math::Round
ok       0.08 Math::VecStat
ok    1.01_02 Memoize
ok       1.13 POSIX
ok       0.95 Params::Validate
ok       1.36 Pod::Usage
ok       1.03 Readonly
ok 2010010201 Regexp::Common
ok       2.49 SVG
ok       1.16 Set::IntSpan
ok     1.6607 Statistics::Basic
ok       2.30 Storable
ok       1.11 Sys::Hostname
ok       2.02 Text::Balanced
ok       0.53 Text::Format
ok     1.9725 Time::HiRes

确定每个模块都ok，对于标记为missing的模块，使用cpan安装。GD模块安装不上的话接着看下一步。

3、安装GD

建议使用yum install 安装，附带的库也会一起安装，不然还要一下一个的下载源代码去安装，如ncurses， zlib，PNG，ttf ，libmcrypt，JPEG6libxml2，Fontconfig 非常麻烦。如果没有yum权限那就没有办法了，乖乖的一个一个安吧。

>yum -y install gd-devel.x86_64

4、安装好上面的GD库后，再返回再用cpan安装GD模块。

5、进入到circos的安装目录的example文件夹中，运行事例文件。

> ./run

生物信息博客

渡人，渡心，渡已

作者归档：yuyin110