5. Sintonía de genomas

Al obtener un genoma (anotado o no) es deseable poner los contigs en el orden y orientación que les corresponda, a esto se le llama sintonía (syntheny). Para logar esto, es necesario contar con un genoma que sirva de modelo a seguir (referencia), preferentemente que sea de la misma especie y que esté ya terminado (cerrado), no un draft pues no se tiene la garantía que este en el orden adecuado. Los genomas pueden estar en formato fasta o GenBank (gbk), preferentemente este último pues queremos ver también las anotaciones del mismo (CDS).

Para este ejercicio usaremos como genoma de referencia el archivo CP000948_DH10B.gbk y el archivo que tiene los contigs (genoma problema generado del ensamble con Newbler) 454AllContigs.fna.

Parse headers

Debido a que los contigs generados con Newbler contienen datos no indispensables en la cabeza (headers) es conveniente quitarlos con el siguiente script de perl y de una vez renombrar la secuencia (ecoli.fasta).

$ parse_headers.pl 454AllContigs.fna > ecoli.fasta

De esta forma en vez de tener un cabezal de la forma

>contig00001 lenght=54000 numreads=12228

se tendrá solo:

>contig00001

MAUVE

Procedimiento

  1. Abrir MAUVE y seleccionar Tools -> Move Contigs
  2. Seleccionar o crear una carpeta de trabajo.
  3. Leer el mensaje y aceptar.
  4. Ingresar las secuencias, primero la de referencia y luego el problema.
  5. Seleccionar la pestaña “Parameters” y seleccionar “Use seed families” y “Iterative refinement”.
  6. Start y esperar.

Mientras se van generando las interacciones se van abriendo ventanas con los resultados hasta que el programa determina que ya no puede mejorar la sintonía. Se puede navegar por estas ventanas para hacer zoom y comparar las diferencias de los genomas analizados. MAUVE no siempre es capaz de mostrar las CDS correctamente, depende mucho de que el formato .gbk esté correctamente formateado.

Se generan varias carpetas, una carpeta para cada interacción que realiza, normalmente la última carpeta es la que tiene la mejor sintonía. Dentro de estas carpetas se generan varios archivos, de los cuales solo dos son importantes, los terminados en .fas y el .tab; el primero tiene los contigs ya ordenados y en sentido correcto (5´a 3´), el segundo tiene la información de los resultados. Todos los archivos terminados en .sslist pueden borrarse.