Ensamble
Para algunos análisis de clasificación taxonómico o funcional de metagenomas, es conveniente ensamblar las secuencias; tendremos tres archivos resultantes, uno con las secuencias ensambladas y dos con secuencias no ensambladas, uno del archivo R1 y otro del R2. Podemos convertir éstos luego a formato fasta y concaternarlos para obtener un solo archivo para análisis.
Limpieza
Siempre es muy conveniente primero limpiar las secuencias crudas fastq ver pair-end.
Ensamble
Haremos el ensamble con FLASH:
$ flash R1.fastq R2.fastq --min-overlap 10 --output-prefix MUESTRA --threads 4 2>&1 | tee flash.log
Las secuencias pareadas R1.fastq R2.fastq serán las secuencia ya limpias.
Para el --output-prefix usemos un nombre que tenga relación con el nombre de la muestra pero respetando los siguientes criterios:
NO empezar con número el nombre de la muestra.
No usar espacios.
No usar guion medio (- ), usar siempre guion bajo ( _ ) si queremos dividir el nombre de la muestra, lo que no es recomendable.
Si podemos usar mayúsculas y minúsculas.
Este programa creará seis archivos:
flash.log
MUESTRA.extendedFrags.fastq
MUESTRA.hist
MUESTRA.histogram
MUESTRA.notCombined_1.fastq
MUESTRA.notCombined_2.fastq
El archivo MUESTRA.extendedFrags.fastq tendrá las secuencias ensambladas y los MUESTRA.notCombined. las secuencias no ensambladas de cada uno de los archivo originales.
Conversión a fasta
Podremos convertir los tres archivos fastq a formato fasta con seqtk:
$ seqtk seq -A MUESTRA.extendedFrags.fastq > MUESTRA.assembled.fasta
$ seqtk seq -A MUESTRA.notCombined_1.fastq > MUESTRA.unassembled.R1.fasta
$ seqtk seq -A MUESTRA.notCombined_2.fastq > MUESTRA.unassembled.R2.fasta
Concatenación de archivos
Ahora podemos unir los tres archivos en uno solo:
$ cat MUESTRA.assembled.fasta MUESTRA.unassembled.R1.fasta MUESTRA.unassembled.R2.fasta > MUESTRA.fasta
Así tendremos un solo archivo con secuencias cortas (no ensambladas y otras mas largas (ensambladas).
Limpieza
Es buena costumbre limpiar los nombres de las secuencias pues algunos programas no aceptan secuencias con nombre largos o con espacios.
$ awk '/^>/{print ">'contig'_"++i; next}{print}' MUESTRA.fasta > MUESTRA.fa
El archivo MUESTRA.fa ya lo podemos usar para la clasificación taxonómica y funcional.