Identificación de genomas bacterianos

Gracias a que cada día se cuenta con mas genomas de bacterias disponibles y principalmente de la gran mayoría de las cepas tipo de las especies, es factible identificar genomas comparándolos con estas bases de datos. Existen varias páginas web que nos permiten hacerlo (MiGA, TYGS), pero también podemos hacerlo en el servidor bioinformático BioBacter.

GTDB

Tenemos que tener un genoma ya ensamblado en formato fasta. Usaremos el programa GTDB-tk para hacer un flujo de trabajo que implica varios pasos y que usa la base de datos GTDB.

Proceso

El o los genomas deben estar dentro un directorio, en el ejemplo llamado DIR y los resultados serán almacenados en otro directorio que llamaremos GTDB, usaremos varios núcleos pues el proceso es bastante demandante y puede tardar alrededor de una hora. Como el programa está instalado en CONDA, primero tenemos que activarlo.

Como puede tardar mucho tiempo, se sugiere que lo corramos en screen y que además usaremos nice -n 10 para que el servidor no le asigne la mas alta prioridad al proceso.

$ conda activate gtdbtk-2.3.0

$ nice -n 10 gtdbtk classify_wf --genome_dir DIR --out_dir GTDB --skip_ani_screen --cpus 8 --pplacer_cpus 12 --extension .fasta

Resultado

El programa genera un archivo llamado gtdbtk.bac120.summary.tsv dentro del directorio de salida (GTDB) con los resultados. Entre los varios resultados que genera, los principaes son la clasificación a nivel especie en la columna classification y el valor de ANI en fastani_ani, valores de ANI iguales o superiores a 96% implican que es la misma especie. En caso de ser un potencial nueva especie, se mencionará la especie más cercana y un valor de ANI inferior a 96%. Aunque se sugiere que el límite debería estan en 95% (Jain et al. 2017).