使用Finder进行基因注释

38

作者:CG 20211025

1 前言

在2021年4月,Finder的文章发表在BMC Bioinformatics上,与它的前辈Maker,Braker一样,都是用来自动注释基因的管道。(什么时候可以来个Guier?)

因为是新文章,我搜了搜,目前网上还没有中文教程。

在我因为使用braker时繁多且混乱的设置,糟糕的说明书,尚未解决完的bug搞得焦头烂额之际,我发现了Finder这个新发布的软件。

Finder的作者可能也是受了braker的荼毒,所以制作出了Finder。Finder可以看作是braker的改进版,其安装和设置都很简单,官网教程详尽、清晰明了。而且连将二代数据比对到基因组上的步骤都一起打包好了。

这里放上Finder的GitHub链接

2 准备输入数据和软件的安装。

简单来说,使用git clone下载Finder,使用conda按提供的yml文件进行安装。另外就是需要下载GeneMark-ES/ET/EP,GeneMarkS-T和它们的key,但下载就行了,安装部分作者帮你搞定。具体步骤在GitHub有非常详尽的描述,可以说是想装错都难。装好后可以试着运行一下示例文件检验是否安装成功。

安装部分我就不再写了,因为这个软件最近可能就要更新了。按这个作者的调性,相信无论你什么时候需要下载,去它的GitHub跟着做都能安装成功👍。

Finder的输入数据为经过softmask处理的基因组fa文件,处理方法看我之前的文章,蛋白质fa文件,rnaseq测序数据文件。另外还需根据rnaseq数据类型准备一个csv格式的metadata。十分简单。

3 程序运行

其实在我第一次运行时是报错了的,仔细检查错误日志后,我发现在运行程序前修改ulimit -n就可以了。一般默认是1024,看来是不够用,我就直接给它调到了100000。

# 构建基因组索引
CPU=30 
mkdir star_index_without_transcriptome
STAR --runMode genomeGenerate --runThreadN $CPU --genomeDir star_index_without_transcriptome --genomeSAindexNbases 12 --genomeFastaFiles xiaocuiyun20211008.softmasked.fa
/home/caigui/software/finder/dep/olego/olegoindex -p olego_index xiaocuiyun20211008.softmasked.fa

# 准备csv文件
# csv文件示例,x代表这一部分的数据可以不填,其它都是必填项。
# data表明本地ranseq存储数据的所在位置,但如果是在线数据的话,这一项不填。
BioProject,SRA Accession,Tissues,Description,Date,Read Length (bp),Ended,RNA Seq,process,Location
BioProject,SRA Accession,Tissues,Description,Date,Read Length (bp),Ended,RNA Seq,process,Location
sample1,sample1,yepian,x,x,x,PE,1,1,data
sample2,sample2,genjian,x,x,x,PE,1,1,data
sample3,sample3,gentuoqugenjian,x,x,x,PE,1,1,data
sample4,sample4,gentuoyuanji,x,x,x,PE,1,1,data
sample5,sample5,gentuojian,x,x,x,PE,1,1,data
sample6,sample6,shoot,x,x,x,PE,1,1,data
sample7,sample7,stem,x,x,x,PE,1,1,data
sample8,sample8,gentuoyuanji,x,x,x,PE,1,1,data
sample10,sample10,genqugenjian,x,x,x,PE,1,1,data
sample18,sample18,genjian,x,x,x,PE,1,1,data
ulimit -n 1000000
finder	--metadatafile sk_metadata.csv \
	--cpu 40 \
	--genome_dir_star star_index_without_transcriptome \
	--output_directory FINDER_test_sk \
	--genome xiaocuiyun20211008.softmasked.fa \
	--protein uniprot_plant_proteome.fasta \
	--genome_dir_olego olego_index \
	--addUTR \
	1> FINDER_test_sk.output 2> FINDER_test_sk.error &

(程序现在还在运行,等运行结束后有空了我放一些图,再写的更详细写)

4. 20230523更新

之前处理的文件夹现在都没了,也不记得当时为什么没有写完这个文档。

不过当时没有采用这个软件肯定是哪儿出问题了,不过finder两个月前还在更新,有空可以看看有什么变化。

参考资料

https://github.com/sagnikbanerjee15/Finder
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-021-04120-9