-
-
-
-
今日一坑:rapdb下载的注释文件“IRGSP-1.0_representative_annotation_2023-09-07.tsv”中基因列会有重复,如Os02g0616600,因为这个注释文件对每个基因的每个转录本都会有一行注释。
有趣的是,以这一列为索引提取hdf5数据时会只提取到第一个转录本。另外,在”RAP-MSU_2023-09-07.txt“这个基因id转换的文件里,还会有以下情况出现,LOC_Os12g08564.1&LOC_Os12g08564.2&LOC_Os12g08564.4都会转换到Os12g0186600,但LOC_Os12g08564.2会转换到none
(摊手)
-
-
-
-
-
在将拟南芥的注释导向hdf5格式后,发现AT1G09090和AT3G57990因为注释文件中含有德语字母“ß”而无法被正常读取。另外AT3G06580因为有“Ä”也无法被读取。
即使是排除了这三个基因,仍然无法读取剩余全部基因,说明还有基因的注释有问题。
https://docs.hdfgroup.org/archive/support/HDF5/doc1.8/Advanced/UsingUnicode/index.html
使用以下命令修改从上一条杂中下载到的最新注释中的Curator_summary列,即可正常读取。
`annot_convert <- annot %>%
mutate(Curator_summary = iconv(Curator_summary, "UTF-8", "ASCII//TRANSLIT"))`
-
拟南芥最新注释文件下载路径:TAIR_home——Download——Public Data Releases——下拉下载最新的
https://www.arabidopsis.org/download/index-auto.jsp?dir=%2Fdownload_files%2FPublic_Data_Releases