Ensamble de un genoma

Se tienen lecturas WGS de la cepa DH10B de E. coli, estas lecturas se tienen que limpiar y realizar un ensamble. Para este ejercicio vamos a analizar una corrida de secuenciación de E. coli DH10B generada con el Ion Torrent PGM en un chip 314.

Procedimiento

Los datos para estos análisis se pueden bajar de:

Ensamble de las secuencias

Existen varios programas para ensamblar secuencias en contigs, algunos son mas adecuados para cierto tipo de plataforma de secuenciación y otros se pueden adaptar a casi cualquier tipo. Dos cosas son importantes para una buena cobertura, suficiente cantidad de lecturas (secuencias) y que sean de buena calidad. La primera nos la da generalmente el equipo de secuenciación pero la segunda no siempre.  Para comprobar ambas características vamos a usar un programa llamado Fastqc.

Para el ensamble usaremos el programa que generó Roche para la plataforma 454 llamado Newbler que funciona en Linux tanto en ambiente gráfico (GUI) como por línea de comandos y puede ensamblar de novo o con un genoma de referencia (mapper). Para este programa se necesitan dos archivos, uno tipo fasta con las secuencias y otro con la calidad de las bases en formato .qual. Ambos se pueden generar a partir del archivo tipo .fastq mediante el script prinseq_lite.pl.

Conversión del archivo fastq

$ prinseq-lite.pl -fastq file.fastq –out_format 2

Newbler

Una vez obtenidos los dos archivos (.fasta y .qual) se puede ya correr Newbler por línea de comandos o por GUI.

Ensamble DeNovo

$ runAssembly –noinfo –nobig -noace file.fasta

Los resultados del ensamblaje se pueden ver en el archivo llamado 454metrics.txt. Los parámetros significan no generar información adicional (-noinfo), no generar archivos grandes (-nobig) y no generar archivos tipo ace (-noace); esto con el fin de ahorrar espacio y tiempo de cómputo.

El ensamble de los genomas genera normalmente un archivo tipo multifasta que contiene todos los contigs obtenidos, por lo que no es fácil ver en resumen sus características; para esto podemos usar de nuevo el script basic_stats.pl.

$ basic_stats.pl 454AllContigs.fna

Ensamble Mapeado

Es posible ensamblar un genoma basándose en otro muy similar pero completo, esto nos permite, a veces, obtener menos contigs. Esta opción resulta útil cuando se están viendo cepas muy cercanas o incluso la misma cepa pero que tenga mutaciones. Es necesario que el genoma de referencia este en formato fasta, si están en formato GenBank es necesario convertirlo con el siguiente comando:

$ GB2fasta.pl reference.gbk reference.fasta

Una vez convertido ponerlo en una carpeta junto con el genoma a mapear en formato fasta y qual y correr:

$ runMapping -cpu 2 -noinfo -noace -nobig -gref reference.fasta file.fasta

Los parámetros significan no generar información adicional (-noinfo), no generar archivos grandes (-nobig) y no generar archivos tipo ace (-noace); esto con el fin de ahorrar espacio y tiempo de cómputo.

Spades

Probaremos también ensamblar el mismo archivo con SPADES para comparar los resultados, link al manual de SPADES. Debido a que este programa consume muchos recursos y tarda tiempo en ejecutarse, se correrá en el servidor Biobacter.

Para este programa solo necesitamos el archivo tipo fastq y ejecutar el siguiente comando:

$ /opt/SPAdes-3.1.1-Linux/bin/spades.py --iontorrent -k 21,33,55,77,99,127 --mismatch-correction -s file.fastq -o spades

El resultados aparece en el directorio spades como contigs.fasta

La ruta donde está instalado SPAdes puede variar (/opt/SPAdes-3.1.1-Linux/bin/spades.py).