OTUs
QIIME consta de muchos scripts y pipelines (scripts concatenados) para analizar las secuencias metagenómicas. En ocasiones, estos script pueden estar agrupados en pipelines o workflows para no tener que estar dando muchos comandos sino con un solo comando realizar varios procesos. En algunas ocasiones queremos poder ir haciendo paso a paso los análisis con el fin de ir ajustando los resultados de los scripts a nuestros intereses en vez de usar los que viene por default.
El primer pipeline asigna una clasificación taxonómica a una OTU (Operational Taxonomic Unit).
Este pipeline consta de siete scripts:
- pick_otus.py Genera un mapa de OTUs a partir del archivo de secuencias multifasta; todas las secuencias con un valor de similitud superior a 97% son consideradas como pertenecientes a una OTU. Escribe el archivo de salida al directorio uclust_picked_otus/*_picked_otus.txt
- pick_rep_set.py Hace una selección de secuencias representativas de cada OTU. Utiliza el archivo generado por el script anterior y genera uno nuevo llamado *_rep_set.fna
- align_seqs.py Alinea las secuencias representativas seleccionadas en el script anterior. Utiliza el archivo *_rep_set.fna y genera uno llamado pynast_aligned.fna; además un archivo log y uno de fracasos (failures), este último puede usarse mas adelante.
- assign_taxonomy.py Asigna una taxonomía (clasificación) a las OTUs encontradas. Utiliza el archivo *_rep_set.fna y genera un archivo de texto.
- filter_alignment.py Filtra las secuencias para eliminar las regiones altamente variables. Usa el archivo alineado en el script 3 y genera uno nuevo.
- make_phylogeny.py Genera un dendrograma. Utiliza el archivo del alineamiento filtrado (script 5) y genera un dendrograma en formato .tree, este archivo será usado en pipelines posteriores.
- make_otu_table.py Por último de hace una tabla resumen del número de OTUs por muestra. Usa el archivo generado por el primer script y el del script 4 para generar un archivo formato .biom.
Por último debemos hacer un resumen de las comunidades encontradas para cada una de las muestras; esto lo realizamos con un pipeline:
summarize_taxa_through_plots.py
Este pipeline consta de los siguientes scripts:
- summarize_taxa.py Genera un resumen del número de secuencias encontradas para cada OTU para cada muestra en forma de tabla.
- plot_taxa_summary.py Grafica los resultados generados en el script anterior.