-
一个拟南芥注释好不好用的小测试:
1.看AT1G26340,AT1G06960,AT1G26240的注释和TAIR能否对的上
2.看AT2G17950的注释是否同时有PGA6和WUS的名字
3.看AT1G09090的Curator_summary是否正常显示
读入gene_aliases_20220630.txt.gz文件就是个技术活,各种字符在里面捣乱
使用read.table读入时,一定要加上comment.char="",否则连读都读不进去。
如果使用readr::read_table直接读取进来,不仔细检查的话,就会漏掉上面的问题。
最终输出整合好的注释时,也要注意对Curator_summary列使用iconv进行转换, 如下,否则在shiny使用时就会报错!
mutate(Curator_summary = iconv(Curator_summary, "UTF-8", "ASCII//TRANSLIT", sub = ""))。
拟南芥啊,做的人多,注释中存在的问题也就多,得多多注意!
-
-
-
-
-
今日一坑
在tair下载的gff文件中,竟然有一行的染色体名称为OBChr1,有且仅有此一行。
导致我在使用gffread提取cds时报错= =,手动修改后就好了
https://www.arabidopsis.org/download_files/Public_Data_Releases/TAIR_Data_20220630/Araport11_GFF3_genes_transposons.Jul2022.gff.gz
-
homer的两个主要命令:findMotifsGenome.pl和findMotifs.pl。前者可以直接导入macs2的summit文件,后者适合找一些启动子共有的motif。
另外还有scanMotifGenomeWide.pl和seq2profile.pl,用来创建motif文件和搜索motif。
学习之前学过的东西真是一个痛苦的事情。
-
-
-