En este ejercicio realizaremos una comparación entre tres genomas de E. coli, realizaremos:
Descargar del servidor a la imagen virtual MGlinux v1.51 en VirtualBox las secuencias de los tres genomas a analizar:
/db2/curso/datasets/genomes/ecoli_genomes/
comparaciones
Con los genomas anteriormente descargados del servidor, realizar el ejercicio descrito en la segunda parte de esta liga.
Convertir los tres archivos gbk a fasta, como en el siguiente ejemplo:
$ perl gbk2fasta.pl -gbk CP001368_0157.gbk -fasta CP001368_0157.fasta
Ya con los tres archivos fasta, seguir las instrucciones de la siguiente liga.
Por último podemos crear una heatmap comparando las proteinas que comparten los genomas.
Durante la creación del blastatlas se crearon archivos con las secuencias de aminoácidos (.fsa), usaremos éstos para ello. Procedimiento en la siguiente liga.
Como tenemos ya información sobre los genes (.fsa) de cada uno de los genomas y sabemos cuales comparten, podemos fácilmente extraer los genes que tiene el genoma de la cepa toxigénica que no tienen los otros dos genomas con un comando explicado aquí:
$ pancoreplot_subsets -i 2 -c 1,3 blastOutPut > uniq_0157.fsa
Lo que le estamos pidiendo al programa es que tome todos los genes del genoma 2 "-i 2
" (posición del 0157 en el archivo file.list generado anteriormente) pero que no estén en los genomas 1 y 3 "-c 1,3
" y que los salve a un nuevo archivo uniq_0157.fsa
.
Al contar los genes (grep -c "c" uniq_0157.fsa
) podemos ver que tenemos 1,028 genes que sólo están en el genoma 0157.
Una vez que hayan realizado este ejercicio, la tarea será que descarguen genomas de NCBI y realicen los pasos descritos, con las siguientes condiciones:
$ prodigalrunner CP000948.gbk
Este script genera varios archivos, de los cuales solo el .fsa será útil para el blastatlas