测试helixer通过深度学习注释基因组的效果
测试helixer通过深度学习注释基因组的效果
helixer,根据深度学习的方法来注释基因组。听说这个准确性很高,而且有很方便的在线版本,测试一下效果。
第一个链接上传即可, 134.6M的基因组文件上传后,大概不到两个小时就注释完毕了。
https://www.plabipd.de/helixer_main.html
https://github.com/weberlab-hhu/Helixer
https://doi.org/10.1093/bioinformatics/btaa1044
https://doi.org/10.1101/2023.02.06.527280
1. igv检查
没有可变剪切,有UTR。对比了几个基因,好像更倾向于给出较短的预测。
2. busco检查
以小翠云基因组作为比较,评估一下。helixer总共注释出22296个蛋白,略多于我之前的20104个。
nohup busco -i sk.helixer.protein.fa -l /home/caigui/sc/busco/busco_downloads/lineages/embryophyta_odb10 -o busco1600_sk.helixer -m protein -c 40 &
nohup busco -i ../Skraussiana.20240127update.fa -l /home/caigui/sc/busco/busco_downloads/lineages/embryophyta_odb10 -o busco1600_sk.20240127 -m protein -c 40 &
# sk.20240127 C:69.7%[S:64.4%,D:5.3%],F:3.6%,M:26.7%,n:1614
# sk.helixer C:49.9%[S:45.4%,D:4.5%],F:8.6%,M:41.5%,n:1614
3. 总结
最近更新仍旧很频繁的软件,很有潜力,但还不够好。
也可能是石松植物已发表的基因组太少了,在双子叶植物上估计效果会更好吧。