Identificación genomas

Si se necesita identificar a que especie pertenece un genoma desconocido o para confirmar su taxonomía, podemos usar la base de datos GTDB online o en el servidor Biobacter. Para esto tenemos que tener ya un ensamble del genoma, que no tiene que ser muy bueno ni completo.

Ensamble rápido

Un ensamble muy rápido, no muy bueno pero suficiente para identificación se puede hacer con clover en Biobacter a partir de secuencias pareadas ya limpias; si las secuencias fastq aún no están limpias, podemos limpiarlas con nextera_cleaner primero para generar dos nuevos archivos llamados sample.R1.fastq y sample.R2.fastq con los que trabajar:

$ /opt/clover-2.0/clover -k 40 -i1 R1.fastq -i2 R2.fastq -o clover

Calidad del ensamble

También es conveniente checar la calidad del ensamble  para ver que tan completo está y si hay contaminación. Para esto usaremos checkm2 que analiza la presencia y cantidad de genes marcadores de bacterias o arqueas y mediante esto calcular si están todos presentes (100% completo) y si hay varios repetidos, lo que podría implicar contaminación (más de una especie en el ensamble).

$ conda activate checkm2

$ checkm2 predict --threads 8 --input DIR --output-directory checkm2

En donde DIR es el directorio que contenga los contigs en un archivo multifasta.

Genera un archivo quality_report.tsv con la siguiente info:

Name Completeness Contamination Completeness_Model_Used Translation_Table Used

4A2NS.contigs 87.45 7.14 Neural Network (Specific Model) 11

UJAT02_100K.contigs 95.4 4.86 Gradient Boost (General Model) 11


Identificación

La base de datos y el programa (gtdbtk) para clasificar e identificar está instalada en Biobacter en CONDA, para lo cual hay que activar el ambiente CONDA y luego ejecutar el comando:

$ conda activate gtdbtk-2.1.1

$ gtdbtk classify_wf --genome_dir DIR --out_dir DIR/GTDB --cpus 8

DIR es el directorio donde está el ensamble o los contigs en formato fasta con terminación .fna

NOTA. En caso que conda no se active (aparezca un error) es necesario configurar conda como se explica aquí. Si se activó, debería aparecer gtdbtk-2.1.1 antes del prompt $.

Los resultados estarán en el directorio GTDB creado. Para saber que especie es la más cercana podemos ejecutar:
$ cut -f2,6 DIR/GTDB/gtdbtk.bac120.summary.tsv | tail -1 | cut -d ";" -f7 | sed 's/s__//'

y para saber el porcentaje de ANI (si es mayor a 97%, es la misma especie):

$ cut -f2,6 DIR/GTDB/gtdbtk.bac120.summary.tsv | tail -1

Script multiple_rapid_genome_classifier.sh

En biobacter tenemos un script que realiza todos estos pasos en varios ensambles de genomas. Es necesario tener las secuencias limpias en subdirectorios para que las procese. Debido a que puede tardar horas en ejecutarse todo, es conveniente correrlo en screen.

$ multiple_rapid_genome_classifier