6. Anotación de genomas

Los productos de los ensambles de las lecturas pueden anotarse para identificar las secuencias codificantes (CDS) y asociarles una función, si se conoce, o bien identificarlas como proteínas hipotéticas.

Existen varios programas para realizar la anotación, uno de los más populares es el sistema de NCBI pero no lo puede realizar el usuario directamente sino que se solicita a NCBI que lo hagan ellos. Sin embargo, una mejor alternativa, además de más amigable, es el Rapid Annotation using Subsystem Technology (RAST).

El archivo tipo fasta puede anotarse en RAST y de una manera preliminar y sin tener que tener acceso a internet, se pueden anotar en myRAST ya que funciona en la computadora (Linux, MacOSX o Windows) con conexión a internet.

También podemos usar prokka o bakta en nuestra computadora o servidor.

Procedimiento

RAST

  1. Cargar el archivo fasta producto del ensamble con los contigs en RAST.

  2. Esperar y se pueden ver los resultados en la página web.

myRAST

  1. Cargar el archivo multifasta a myRAST (se necesita conexión a internet).

Después de como una hora, crea todos los documentos con los resultados en /Documents/myRAST/, pero los primeros resultados están listos al cabo de pocos minutos.

prokka

Otro útil anotador de genomas microbianos es prokka, éste tiene la ventaja que nos genera varios tipos de archivo de salida. Necesitamos los contigs del genoma a anotar en formato fasta. Mediante un pequeño script, podemos anotar varios genomas consecutivamente.

Prokka está instalado en un CONDA, por lo que primero habrá que activarlo:

$ conda activate prokka

(prokka)$ prokka --outdir directorio --force --prefix tag --cpus 8 file.fasta

Opciones

--outdir directorio en donde se escribirán los archivos de salida.

--force si existe el directorio sobreescribirá en el (en caso que el archivo del genoma tenga el mismo nombre que uno ya usado).

--prefix un código para nombrar los archivos de salida.

--cpus número de cpu a usar (depende de la capacidad de la computadora, 8 son suficientes).

file.fasta nombre del archivo con los contigs del genoma en formato fasta.

bakta (recomendado)

Este anotador es muy similar a prokka, de hecho ya lo sustituye, y es más completo y actualizado.

Bakta está instalado en un CONDA, por lo que primero habrá que activarlo:

$ conda activate base

(base)$ bakta --db /dbs/bakta/db/ file.fasta

Opciones

--output DIR nombre del directorio de salida

--genus Género de la bacteria

--species Especie

--strain Cepa

--prefix Prefijo para las anotaciones

--threads Número de CPUs (8 es recomendable)