3. Ensamble de genomas

La secuenciación de nueva generación (NGS) genera una gran cantidad de pequeñas secuencias o lecturas (reads) de 100-400 pb. Estas lecturas deben ensamblarse para formar secuencias largas (contigs) con las que se puede armar un cromosoma o genoma (scaffold).

El ensamblador que usemos depende de que plataforma usamos para secuenciar, ya que ellos están diseñados con un tipo de secuencias en específico. Pero generalmente, hay que diferenciar si son secuencias pareadas (pair-end) o sencillas (single), y si estas son cortas (alrededor de 150-300 pb) o largas (Kpb), o bien una combinación de éstas.

A veces es también conveniente unir las secuencias pair-end para tener una sencilla pero más larga, que tantas secuencias pair-end se pueden unir depende de que tan largo, o corto, se fragmentó el ADN antes de secuenciar (tamaño del inserto). Mientras mayor sea el tamaño del inserto, menor número de secuencias se unirán y viceversa. Así podemos tener se una corrida de secuenciación un archivo con las secuencias unidas y dos archivos con las secuencias que no se unieron (forward y reverse). Esta unión se puede hacer con PEAR como lo especificamos aquí.

Ensambladores comúnmente usados para genomas microbianos son:

Secuencias cortas (Illumina, Ion Torrent)

Secuencias largas (Nanopore, PacBio)

Cada uno tiene sus parámetros específicos que pueden consultarse mediante el flag -h en la linea se comandos. Más información aquí.

Quizá el más popular ensamblador sea SPAdes, es sencillo de usar:

$ python /opt/SPAdes-4.0.0-Linux/bin/spades.py -k 21,33,55,77 --careful -1 R1.fastq -2 R2.fastq -o spades

La ruta (/opt/SPAdes-4.0.0-Linux/bin/spades.py) depende de dónde se halla instalado el programa. Usa por default 16 núcleos, pero se puede cambiar con -t.

El -k significan los tamaños de Kmers a usar, los valores 21,33,55,77 son los recomendados para secuencias de Illumina.

Unicycler

Un ensamblador que utiliza SPAdes pero hace muchos refinamientos es Unicycler, por lo que generalmente es mejor opción que solo SPAdes. Tenemos que correrlo con CONDA:

$ conda activate python3.6

$ unicycler -1 R1.fastq -2 R2.fastq -o unicycler --spades_path /opt/SPAdes-3.13.0-Linux/bin/spades.py -t 8

Ensamble híbrido

Si tenemos secuencias Illumina pair-end (.R1.fastq y .R2.fastq) y secuencias largas de Oxford Nanopore (ONT), entonces con Unicylcer podemos hacer un ensamble híbrido eficientemente:

$ conda activate python3.6

$ unicycler -1 R1.fastq -2 R2.fastq -l ONT.fastq -o unicycler_hybrid --spades_path /opt/SPAdes-3.13.0-Linux/bin/spades.py -t 8

Script genome_assembler.v0.4.7

En el servidor biobacter tenemos un script (genome_assembler) que nos permite seleccionar con que programa ensamblar dependiendo del tipo de secuencias que tengamos. Siempre es aconsejable limpiar las secuencias antes de ensamblarlas. Los parámetros mejores para cada ensamblador ya están preseleccionados. También es posible usar varios ensambles generados para hacer un superensamble con MIX; pero hay que tener cuidad porque en estos superensambles suelen introducirse contigs duplicados juntos en un solo contig.

Para ejecutar el script se puede correr de alguna de las siguiente maneras:

______ Pair-end sequences __________________________________________________

For Illumina pair-end fastq sequences with SPAdes, a5, SKESA, or Unicycler:

     $ genome_assembler R1.fastq R2.fastq

For Illumina pair-end fastq sequences combined with single reads with SPAdes:

     $ genome_assembler R1.fastq R2.fastq file.fastq

______ Single reads ________________________________________________________

   For single reads in fasta format with Newbler:

     $ genome_assembler file.fasta

   For single reads in fastq format (Ion Torrent) with SPAdes:

     $ genome_assembler file.fastq

   For single reads in fasta format with Newbler mapping to a reference:

     $ genome_assembler file.fasta reference.fasta

______ Combining assemblies ________________________________________________

   Several assemblies can be used to create a superassembly with MIX:

   $ genome_assembler *.fasta   (any extension is valid)

Una vez que se ingresó el comando despliega el siguiente menu para seleccionar el ensamblador que queremos correr, o bien salir del mismo:

For pair-end sequences in fastq format:

    1 SPAdes pair-end

    2 SPAdes combined (pair-end and single seqs)

    3 a5

    4 Unicycler

    5 SKESA

For single sequences in fasta/q format:

    6 newbler (only fasta)

    7 newbler mapping (only fasta)

    8 SPAdes (Ion Torrent, fastq)

To assemble assemblies:

    9 MIX

    x exit

Al final podemos validar todos los ensambles hechos con QUAST.