6. Anotación de genomas
Los productos de los ensambles de las lecturas pueden anotarse para identificar las secuencias codificantes (CDS) y asociarles una función, si se conoce, o bien identificarlas como proteínas hipotéticas.
Existen varios programas para realizar la anotación, uno de los más populares es el sistema de NCBI pero no lo puede realizar el usuario directamente sino que se solicita a NCBI que lo hagan ellos. Sin embargo, una mejor alternativa online, además de más amigable, es el Rapid Annotation using Subsystem Technology (RAST).
El archivo tipo fasta puede anotarse en RAST y de una manera preliminar y sin tener que tener acceso a internet, se pueden anotar en myRAST ya que funciona en la computadora (Linux, MacOSX o Windows) con conexión a internet.
También podemos usar localmente prokka o bakta en nuestra computadora o servidor. En Biobacter tenemos ambos instalados.
bakta (recomendado)
Bakta es anotador es muy similar a prokka, de hecho ya lo sustituye, es más completo y actualizado. Es un poco tardado, 45 min con 8 núcleos.
Bakta está instalado en un ambiente python con CONDA en el servidor Biobacter, por lo que primero habrá que activarlo:
$ conda activate bakta
(bakta)$ bakta --db /dbs/bakta/db/ file.fasta
Opciones
--output DIR nombre del directorio de salida
--genus Género de la bacteria
--species Especie
--strain Cepa
--prefix Prefijo para las anotaciones
--threads Número de CPUs (8 es recomendable)
En linea podemos anotar con RAST
RAST
Cargar el archivo fasta producto del ensamble con los contigs en RAST.
Esperar y se pueden ver los resultados en la página web.
myRAST
Cargar el archivo multifasta a myRAST (se necesita conexión a internet).
Después de como una hora, crea todos los documentos con los resultados en /Documents/myRAST/, pero los primeros resultados están listos al cabo de pocos minutos.
prokka
Otro útil anotador de genomas microbianos es prokka, éste tiene la ventaja que nos genera varios tipos de archivo de salida. Necesitamos los contigs del genoma a anotar en formato fasta. Mediante un pequeño script, podemos anotar varios genomas consecutivamente.
Nota. Se recomienda mejor usar bakta (ver arriba).
Prokka está instalado en un CONDA, por lo que primero habrá que activarlo:
$ conda activate prokka
(prokka)$ prokka --outdir directorio --force --prefix tag --cpus 8 file.fasta
Opciones
--outdir directorio en donde se escribirán los archivos de salida.
--force si existe el directorio sobreescribirá en el (en caso que el archivo del genoma tenga el mismo nombre que uno ya usado).
--prefix un código para nombrar los archivos de salida.
--cpus número de cpu a usar (depende de la capacidad de la computadora, 8 son suficientes).
file.fasta nombre del archivo con los contigs del genoma en formato fasta.