1. Metadatos

Los metadatos son necesarios para que los programas de análisis sepan y puedan analizar las diferentes muestras, para esto hay que preparar unos archivos que puedan entender.

Los metadatos se definen como: "un grupo de datos que describen el contenido informativo de un objeto al que se denomina recurso" (Wikipedia). Para análisis bioinformáticos es imperativo que éstos tengan un formato legible por la mayoría de los lenguajes computacionales. No hay formato mas sencillo que una tabla con la información separada por tabuladores. Esta tabla puede crearse con excel, por ejemplo (pero NO con word ni ningún procesador de textos), pero salvarse como ´tab delimited´ con extensión .txt.

Lo aconsejable es que se cree la tabla de metadatos desde antes incluso de tomar las muestra, para ir rotulando cada muestra con el código y que éste se mantenga igual a lo largo de todo el proyecto.

Características de la tabla de metadatos

La tabla debe tener en la primer columna el código de la muestra y en la primer fila el título de cada variable.

El código de preferencia debe cumplir las siguientes características:   

Los títulos de las variables o datos deben:

Las variables deben:

En general:

Recordar, no queremos una tabla que se vea bonita en excel sino una que la computadora pueda entender.

Ejemplo

Como pueden ver en la tabla anterior, el código en este caso está compuesto por la primer(as) letras de cada una de las variables que son relevantes, tratando de mantenerlo lo mas corto posible y que tenga sentido. Nota que el número de organismo tiene la misma cantidad de dígitos (2) con el fin de que el código siempre tenga el mismo número de caracteres. La variable ´Date´ no está incluida en el código por que no relevante, todas las muestras tienen la misma fecha. De hecho, es conveniente que la fecha también sea dividida en tres campos (columnas), día, mes y año.

Metadatos para QIIME

Para el análisis de secuencias por QIIME se necesita, además de las secuencias, un archivo de metadatos en el cual se proporcionan las características de cada muestra. El archivo debe tener como mínimo las siguientes columnas separadas por tabuladores y empezar con #. El archivo puede crearse con Excel o cualquier block de notas que genere archivos tipo txt. NO usar Word. Si se usa Excel guardar el archivo como “tab delimited file”. Nombrar el archivo “map.txt”. 

Descargar archivo de ejemplo abajo.

#SampleID    BarcodeSequence    Linker  Data_1   Data_2   Data_3   Data_n  PrimerSequence    Description

Description

Ya que las secuencias viene separadas ya por muestras, las columnas BarcodeSequence y LinkerPrimerSequence pueden tener cualquier secuencia, solo sirve para que pueda correr el script.

Validación

Una vez creado el archivo de metadatos (map.txt) se debe validar para que no tenga errores que alteren los resultados de QIIME. La validación se puede realizar con comandos o bien en una hoja de cálculo de GoogleDocs previa instalación de Keemei.

MUY IMPORTANTE: los nombres (o códigos) de las muestras en el archivo de metadatos deben ser IDENTICOS a los nombres de las secuencias! Además debe haber el mismo número de nombres que el número de muestras secuencias para analizar. Checar bien el archivo metadatos pues es la fuente de muchos errores en el análisis.


Metadatos para STAMP

Statistical Analysis of Metagenomic Profiles (STAMP) necesita obtener la información de las muestras analizadas de un archivo con un formato específico, muy similar al de QIIME.

Muestra    dato1    dato2    dato3    dato_n

El nombre de la muestra debe ser igual a la primera parte del nombre de las secuencias; los nombres de las secuencias deben empezar por el nombre de la muestra, guión bajo y luego un número consecutivo. Los datos pueden ser cualquier característica de la muestra.

NO usar Word. Si se usa Excel guardar el archivo como “tab delimited file”. Nombrar el archivo “metafile.txt”.