测试helixer通过深度学习注释基因组的效果

18

测试helixer通过深度学习注释基因组的效果

helixer,根据深度学习的方法来注释基因组。听说这个准确性很高,而且有很方便的在线版本,测试一下效果。

第一个链接上传即可, 134.6M的基因组文件上传后,大概不到两个小时就注释完毕了。

https://www.plabipd.de/helixer_main.html
https://github.com/weberlab-hhu/Helixer
https://doi.org/10.1093/bioinformatics/btaa1044
https://doi.org/10.1101/2023.02.06.527280

1. igv检查

没有可变剪切,有UTR。对比了几个基因,好像更倾向于给出较短的预测。

2. busco检查

以小翠云基因组作为比较,评估一下。helixer总共注释出22296个蛋白,略多于我之前的20104个。

nohup busco -i sk.helixer.protein.fa -l /home/caigui/sc/busco/busco_downloads/lineages/embryophyta_odb10 -o busco1600_sk.helixer -m protein -c 40 &
nohup busco -i ../Skraussiana.20240127update.fa -l /home/caigui/sc/busco/busco_downloads/lineages/embryophyta_odb10 -o busco1600_sk.20240127 -m protein -c 40 &

# sk.20240127 C:69.7%[S:64.4%,D:5.3%],F:3.6%,M:26.7%,n:1614
# sk.helixer C:49.9%[S:45.4%,D:4.5%],F:8.6%,M:41.5%,n:1614

3. 总结

最近更新仍旧很频繁的软件,很有潜力,但还不够好。

也可能是石松植物已发表的基因组太少了,在双子叶植物上估计效果会更好吧。