Comparación DB

Comparación de clasificar con diferentes bases de datos.

Se clasificaron tres archivos multifasta con un total de 110,501 secuencias (promedio 170 pb, región V3) con tres bases de datos distintas. El análisis se realizó en biobacter con el script mg_classifier.

Es importante considerar que una base de datos no es mejor solo por que tengas mas secuencias, sino por que éstas estén bien curadas, como es el caso de la eztaxon. Aunque RDP tiene muchas mas secuencias en su base de datos, no están curadas, esto es, no se ha examinado si la taxonomía de cada secuencia esta comprobada.

El análisis de rarefacción con estos datos no muestra grandes diferencias, aunque ninguna de las curvas llega a una asíntota, las mejores se obtuvieron con eztaxon y RDP.

La proporción de phyla clasificadas con cada base de datos no es muy diferente (Sig. gráfica) y algunas están más cargadas a ciertos grupos de bacterias (ver siguiente tabla). Con estos datos, parece que la base de datos eztaxon tiene una mejor distribución de phyla, las secuencias están proporcionalmente mejor distribuidas, sin un predominio a clasificar mas de un grupo que de otros (ver preponderancia de Proteobacteria en RDP en la gráfica).