Ensamble de un genoma Illumina

Se tienen lecturas WGS de la cepa K12 de E. coli secuenciada con la plataforma Illumina (2x150 pb, 388,895 secuencias), estas lecturas se tienen que limpiar y realizar un ensamble .

Procedimiento

Los datos para estos análisis de pueden bajar de aquí: ecoli-K12_Illumina.tar.gz este archivo comprimido tiene tres archivos, SSR6436961_1.fastq SSR6436961_2.fastq y metadata.txt.

Limpieza

Revisar la calidad de las secuencias con fastqc como se muestra en la página de limpieza de secuencias Illumina

Con los datos obtenidos del análisis con fastqc, hacer es limpiar las secuencias con cutadapt:

$ cutadapt -u 15 -U 15 -a CAAGCAGAAGACGGCATACGAGAT -a CTGTCTCTTATACACATCT -A AATGATACGGCGACCACCGAGATCTACAC -A CTGTCTCTTATACACATCT --times 2 -q 30,30 --trim-n -o ecoli.R1.fastq -p ecoli.R2.fastq SRR6436961_1.fastq SRR6436961_2.fastq

Este proceso genera dos archivos ya limpios (ecoli.R1.fastq y ecoli.R2.fastq), podemos volver a correr fastqc para verificar la calidad de las secuencias.

Ensamble de las secuencias

Existen varios programas para ensamblar secuencias en contigs, algunos son más adecuados para cierto tipo de plataforma de secuenciación y otros se pueden adaptar a casi cualquier tipo. Dos cosas son importantes para una buena cobertura, suficiente cantidad de lecturas (secuencias) y que sean de buena calidad. La primera nos la da generalmente el equipo de secuenciación pero la segunda no siempre. 

Spades

Probaremos también ensamblar el mismo archivo con SPADES para comparar los resultados, link al manual de SPADES. Debido a que este programa consume muchos recursos y tarda tiempo en ejecutarse se puede correr en el servidor Biobacter o bien en la imágen virtual MGlinux pero obviamente tardará más.

Para este programa solo necesitamos el archivo tipo fastq y ejecutar el siguiente comando:

$ spades -k 21,33,55,77 --careful -1 ecoli.R1.fastq -2 ecoli.R2.fastq -o spades

El resultados aparece en el directorio spades como contigs.fasta y como scaffolds.fasta