Comparación de genomas

En este ejercicio realizaremos una comparación entre tres genomas de E. coli, realizaremos:

  1. Atlas de la cepa 0157 enterotoxigénica (Código de acceso NCBI CP001368)
  2. Blast atlas de la cepa 0157 vs las cepas no toxigénicas DH1 (CP001637) y DH10B (CP0000948).
  3. Obtener el Pan y el Core genome de estas tres cepas.
  4. Obtener el proteoma de las cepas.

1. Genome Atlas

Descargar del servidor a la imagen virtual MGlinux v1.51 en VirtualBox las secuencias de los tres genomas a analizar:

  • Pueden descargar los genomas del siguiente link y descomprimirlos.
  • Alternativamente pueden en MGlinux abrir nautilus y conectarse al servidor, ver figura ->
    • Una vez conectado ir a la ruta /db2/curso/datasets/genomes/ecoli_genomes/
    • Descargar (arrastrar o copiar y pegar) los siguientes archivos a una carpeta en Documents que llamarán comparaciones
    • CP001368_0157.gbk
    • CP001637_DH1.gbk
    • CP000948_DH10B.gbk
  • Seguir las instrucciones de la primer parte de esta liga.

2. Blast Atlas

Con los genomas anteriormente descargados del servidor, realizar el ejercicio descrito en la segunda parte de esta liga.

3. Pan y Core genome

Convertir los tres archivos gbk a fasta, como en el siguiente ejemplo:

$ perl gbk2fasta.pl -gbk CP001368_0157.gbk -fasta CP001368_0157.fasta

Ya con los tres archivos fasta, seguir las instrucciones de la siguiente liga.

Proteoma

Por último podemos crear una heatmap comparando las proteinas que comparten los genomas.

Durante la creación del blastatlas se crearon archivos con las secuencias de aminoácidos (.fsa), usaremos éstos para ello. Procedimiento en la siguiente liga.

Como tenemos ya información sobre los genes (.fsa) de cada uno de los genomas y sabemos cuales comparten, podemos fácilmente extraer los genes que tiene el genoma de la cepa toxigénica que no tienen los otros dos genomas con un comando explicado aquí:

$ pancoreplot_subsets -i 2 -c 1,3 blastOutPut > uniq_0157.fsa

Lo que le estamos pidiendo al programa es que tome todos los genes del genoma 2 "-i 2 " (posición del 0157 en el archivo file.list generado anteriormente) pero que no estén en los genomas 1 y 3 "-c 1,3" y que los salve a un nuevo archivo uniq_0157.fsa.

Al contar los genes (grep -c "c" uniq_0157.fsa) podemos ver que tenemos 1,028 genes que sólo están en el genoma 0157.

TAREA

Una vez que hayan realizado este ejercicio, la tarea será que descarguen genomas de NCBI y realicen los pasos descritos, con las siguientes condiciones:

  1. Al menos cinco genomas de cepas de la misma especie bacteriana.
  2. Presentar un reporte de la práctica en formato PDF con:
    1. Introducción de la importancia de la bacteria elegida
    2. Métodos bioinformáticos usados
    3. Resultados con gráficas

Como descargar genomas completos de GenBank

  1. Desde la imagen virtual MGlinux, abrir el navegador
  2. Descargar genomas del siguiente link ftp://ftp.ncbi.nlm.nih.gov/genomes/archive/old_genbank//Bacteria/
  3. Abrir cada genoma y seleccionar el archivo con extensión .gbk y darle botón derecho para seleccionar descargar link.
  4. Para extraer las secuencias de las CDS en amino ácidos, usar prodigalrunner en vez de solo prodigal:
$ prodigalrunner CP000948.gbk

Este script genera varios archivos, de los cuales solo el .fsa será útil para el blastatlas