Ensamble Híbrido

Comúnmente tenemos dos tipos de secuencias para un genoma, p. ej. secuencias cortas de alta calidad con Illumina y largas de no tan buena calidad obtenidas con Oxford Nanopore. Podemos con estas secuencias tener un ensamble híbrido que tendrá lo mejor de los dos mundos, alta calidad y contigs muy largos y así cerrar el genoma o casi.

Unicycler

Es conveniente limpiar primero las secuencias Oxford Nanopore largas para eliminar residuos de adaptadores:

$ porechop -i input_reads.fastq.gz -o output_reads.fastq.gz --threads 8

Ensamble híbrido

Ya por ahora las secuencias de Nanopore son de baja calidad (<Q20) es mejor ensamblar los genomas microbianos usando secuencias de alta calidad Illumina, en lo que se conoce como ensamble híbrido. Para esto usaremos Unicycler y SPAdes.

$ /opt/Unicycler-0.5.1/unicycler-runner.py --spades_path /opt/SPAdes-4.0.0-Linux/bin/spades.py --mode bold -t 12 -1 file.R1.fastq.gz -2 file.R2.fastq.gz -l outfile.fastq.gz -o hybrid

Para correr este comando es necesario especificar en donde se encuentran instalados los programas Unicycler (/opt/Unicycler-0.5.1/unicycler-runner.py) y SPAdes (/opt/SPAdes-4.0.0-Linux/bin/spades.py).  Estamos pidiéndole que haga el enmble en modo "bold" (--mode bold) con 12 núcleos (-t 12) para las secuencias limpias de Illumina (-1 file.R1.fastq.gz -2 file.R2.fastq.gz) y las secuencias de Nanopore limpiadas anteriormente (-l outfile.fastq.gz) y que salve el ensamble en una carpeta llamada "hybrid" (-o hybrid).

Dentro de la carpeta hybrid tendremos el archivo de contigs assembly.fasta con el ensamble; idealmente, tendríamos una secuencias por cada elemento cromosomal o extracromosomal.

El ensamble (assembly.fasta) podemos anotarlo con BAKTA.