Ensamble

Para algunos análisis de clasificación taxonómico o funcional de metagenomas, es conveniente ensamblar las secuencias; tendremos tres archivos resultantes, uno con las secuencias ensambladas y dos con secuencias no ensambladas, uno del archivo R1 y otro del R2. Podemos convertir éstos luego a formato fasta y concaternarlos para obtener un solo archivo para análisis.

Limpieza

Siempre es muy conveniente primero limpiar las secuencias crudas fastq ver pair-end.

Ensamble

Haremos el ensamble con FLASH:

$ flash R1.fastq R2.fastq --min-overlap 10 --output-prefix MUESTRA --threads 4 2>&1 | tee flash.log

Las secuencias pareadas R1.fastq R2.fastq serán las secuencia ya limpias.

Para el  --output-prefix usemos un nombre que tenga relación con el nombre de la muestra pero respetando los siguientes criterios:

Este programa creará seis archivos:

flash.log

MUESTRA.extendedFrags.fastq

MUESTRA.hist

MUESTRA.histogram

MUESTRA.notCombined_1.fastq

MUESTRA.notCombined_2.fastq

El archivo MUESTRA.extendedFrags.fastq tendrá las secuencias ensambladas y los MUESTRA.notCombined. las secuencias no ensambladas de cada uno de los archivo  originales.

Conversión a fasta

Podremos convertir los tres archivos fastq a formato fasta con seqtk:

$ seqtk seq -A MUESTRA.extendedFrags.fastq > MUESTRA.assembled.fasta

$ seqtk seq -A MUESTRA.notCombined_1.fastq > MUESTRA.unassembled.R1.fasta

$ seqtk seq -A MUESTRA.notCombined_2.fastq > MUESTRA.unassembled.R2.fasta

Concatenación de archivos

Ahora podemos unir los tres archivos en uno solo:

$ cat MUESTRA.assembled.fasta MUESTRA.unassembled.R1.fasta MUESTRA.unassembled.R2.fasta > MUESTRA.fasta

Así tendremos un solo archivo con secuencias cortas (no ensambladas y otras mas largas (ensambladas).

Limpieza

Es buena costumbre limpiar los nombres de las secuencias pues algunos programas no aceptan secuencias con nombre largos o con espacios.

$ awk '/^>/{print ">'contig'_"++i; next}{print}' MUESTRA.fasta > MUESTRA.fa

El archivo MUESTRA.fa ya lo podemos usar para la clasificación taxonómica y funcional.