如果公共数据库(e.g., Ensembl, NCBI)存在目标物种的 MT genome & annotation,则直接合并。
如果公共数据库(e.g., Ensembl, NCBI)存在目标物种的近缘物种的 MT genome & annotation,也可直接合并。若追求准确性,可用下述方案。
如果有 WGS 的 raw reads,可以利用 GetOrganelle(组装)或 MitoZ(组装 + 注释)来组装和注释线粒体基因组。
如果已经组装好的基因组存在线粒体基因组序列(contig/scaffold),可以利用近缘物种的线粒体基因组序列来识别。
为组装基因组构建 blast 索引,然后利用 blastn 用近缘物种的线粒体基因组去识别,最终得到 identity 高(>80-90%),alignment length 长(~16kb)的 contig/scafoold。如果找到很多短的,identity 较低的片段,通常是 nuclear mitochondrial DNA segments,即插入到核基因组里的线粒体假基因。
利用 liftoff 使用近缘物种的线粒体基因组的注释进行同源映射或者利用 MitoZ 进行从头注释。