Validación

Podemos validar un ensamble con QUAST, este programa produce varías métricas del ensamble, pero tiene mayor validez cuando incluimos una genoma de referencia completo; así es posible que compare contra esa referencia y nos diga que tan bien se realizó el ensamble. Permite comparar varios ensambles para decidir cual es el mejor.

QUAST necesita al menos el archivo del ensamble en formato fasta y el de referencia también en formato fasta; en caso de que no estén en este formato hay que transformarlos; por ejemplo si el de referencia (reference.gbk) esta en formato .gbk hay que transformarlo así:

$ GB2Fasta.pl reference.gbk reference.fasta

Ahora si podemos validarlos con quast:

$ quast assembly.fasta -R reference.gbk --threads 2 -f

El flag --threads 2 quiere decir que le estamos pidiendo al sistema que use dos procesadores para acelerar el análisis. El flag -f sirve para buscar genes y usar también ese parámetro, pero el análisis es mas lento.

En caso que incluyamos mas ensambles a comparar:

$ quast assembly1.fasta assembly2.fasta -R reference.gbk --threads 2 -f

QUAST genera un extenso reporte en el directorio /quast_results/

Una de las principales gráficas (abajo) presenta el número de contigs (X) contra la longitud acumulada (Y) comparada con la longitud total de la referencia; mientras más rápido suba esta gráfica y llegue a la referencia, mejor será el ensamble.