Genome atlas

CMG BioTools 2.2

Dos o más genomas se pueden comparar mediante varios métodos. Uno sencillo es con MAUVE, de manera similar a como se explicó en la sección de sintonía de genomas. Otra forma es con los scripts del CMG biotools de D. Ussery o bien a través de la página web GeneWiz (con limitaciones).

El manual completo para estos scripts se encuentra en PDF.

NOTA. Este programa funciona muy bien con genomas que se encuentran en el formato antiguo de GenBank, con extensión .gbk y no con los nuevos en formato .gbff

Los archivos con formato antiguo se pueden bajar del siguiente link ftp://ftp.ncbi.nlm.nih.gov/genomes/archive/old_genbank//Bacteria/

Atlas

Antes de crear una imagen comparando genomas, creemos un atlas de las características del genoma de la cepa CP000948_DH10B (Fig. 1).

Procedimiento

$ atlas_createConfig -ref CP000948_DH10B.gbk
$ atlas –f CP000948_DH10B.gbk –c CP000948_DH10B.gbk.atlas.cf –o CP000948_DH10B.gbk.blastatlas.ps -tidy

BlastAtlas

Para este ejercicio vamos a usar estos últimos con tres genomas de E. coli, la cepa estándar (CP000948_DH10B) una cepa enterotoxigénica (CP001368_0157) y otra (CP001637_DH1). En este tipo de comparaciones los genomas se comparan contra uno solo, para lo cual usaremos el de la cepa enterotoxigénica como referencia para tratar de encontrar que tiene este genomas que está ausente en los otros dos (Fig. 2).

Procedimiento

1. Buscar los genes (CDS) en los genomas a comparar y ponerlos en un archivo multifasta de aminoácidos (poner la terminación .fsa).

$ prodigal –i CP000948_DH10B.gbk –a CP000948_DH10B.fsa
$ prodigal –i CP001637_DH1.gbk –a CP001637_DH1.fsa

Es posible que prodigal genere archivos con nombre muy largos de las secuencias, cosa que a veces no es bueno para varios programas, podemos quitar nombres largos con un script nuestro:

  • $ fasta_cleaner

Este script da varias alternativas, en este caso

2. Opcional. Checar el número de CDS encontradas.

$ grep -c “>” file.fsa

3. Crear un archivo de configuración con el genoma de la cepa de referencia.

$ atlas_createConfig -ref CP001368_0157.gbk

4. Adicionar genomas al archivo de configuración. Para el primer genoma que se va adicionar introducir el sifuiente comando; para el segundo genoma volver a introducir el comando pero cambiando el nombre del archivo.

$ atlas_addBlastlane -f CP000948_DH10B.fsa -c CP001368_0157.gbk.atlas.cf -col 000090 -name DH10B
$ atlas_addBlastlane -f CP001637_DH1.fsa -c CP001368_0157.gbk.atlas.cf -col 000090 -name DH1

Los colores con los que aparecerán los genomas que se están comparando se pueden cambiar solamente cambiando el valor en el flag –col de acuerdo a las convenciones para colores hex.

rojo 900000

azul 000090

verde 006000

negro 000000

5. Crear un blastAtlas

$ atlas –f CP001368_0157.gbk –c CP001368_0157.gbk.atlas.cf –o CP001368_0157.gbk.blastatlas.ps -tidy

6. Esperar y ver el atlas en el archivo postscript (.ps) generado para localizar regiones únicas en el genoma de la cepa 0157.

7. todos los archivos con terminaciones .gz, .ann, .blast, .nhr, .nin, .nsq, y .db pueden borrarse sin problema.

$ rm -rf *gz *ann *blast *nhr *nin *nsq *db