1. Metadatos
Los metadatos son necesarios para que los programas de análisis sepan y puedan analizar las diferentes muestras, para esto hay que preparar unos archivos que puedan entender.
Los metadatos se definen como: "un grupo de datos que describen el contenido informativo de un objeto al que se denomina recurso" (Wikipedia). Para análisis bioinformáticos es imperativo que éstos tengan un formato legible por la mayoría de los lenguajes computacionales. No hay formato mas sencillo que una tabla con la información separada por tabuladores. Esta tabla puede crearse con excel, por ejemplo (pero NO con word ni ningún procesador de textos), pero salvarse como ´tab delimited´ con extensión .txt.
Lo aconsejable es que se cree la tabla de metadatos desde antes incluso de tomar las muestra, para ir rotulando cada muestra con el código y que éste se mantenga igual a lo largo de todo el proyecto.
Características de la tabla de metadatos
La tabla debe tener en la primer columna el código de la muestra y en la primer fila el título de cada variable.
El código de preferencia debe cumplir las siguientes características:
Ser único
Tener el mismo número de dígitos fr preferencia
Solo dígitos alfanuméricos (no -_., ni ningún otro caracter ni espacios)
Pueden ser mayúsculas o minúsculas
Tener algún sentido
Mantenerlo corto y sencillo
Los títulos de las variables o datos deben:
Ser informativos
No tener espacios, unir palabras con guión bajo _
Las variables deben:
Ser únicas, no juntar información
Pueden tener espacios pero no tabuladores
No tener celdas vacías, usar NA para ´No Aplica´ o ND para ´No Determinado´
No unir celdas (merge cells) en excel, repetir el datos las veces que sea necesario
En general:
No usar acentos ni caracteres ajenos a los ingleses (ñ ç )
No dejar ninguna celda vacía! Usar NA o ND
No usar guión medio -, ni otras señales como * ? " ' ~ @ #
Para dividir palabras se puede usar guión bajo _ o espacio
Empezar siempre en la celda A1, si se usa excel, que tendrá el título de ´código´o ´code´
De preferencia escribirla de una vez en inglés para luego no tener que traducir todo al redactar el paper
Recordar, no queremos una tabla que se vea bonita en excel sino una que la computadora pueda entender.
Ejemplo
Como pueden ver en la tabla anterior, el código en este caso está compuesto por la primer(as) letras de cada una de las variables que son relevantes, tratando de mantenerlo lo mas corto posible y que tenga sentido. Nota que el número de organismo tiene la misma cantidad de dígitos (2) con el fin de que el código siempre tenga el mismo número de caracteres. La variable ´Date´ no está incluida en el código por que no relevante, todas las muestras tienen la misma fecha. De hecho, es conveniente que la fecha también sea dividida en tres campos (columnas), día, mes y año.
Metadatos para QIIME
Para el análisis de secuencias por QIIME se necesita, además de las secuencias, un archivo de metadatos en el cual se proporcionan las características de cada muestra. El archivo debe tener como mínimo las siguientes columnas separadas por tabuladores y empezar con #. El archivo puede crearse con Excel o cualquier block de notas que genere archivos tipo txt. NO usar Word. Si se usa Excel guardar el archivo como “tab delimited file”. Nombrar el archivo “map.txt”.
Descargar archivo de ejemplo abajo.
#SampleID BarcodeSequence Linker Data_1 Data_2 Data_3 Data_n PrimerSequence Description
Description
Ya que las secuencias viene separadas ya por muestras, las columnas BarcodeSequence y LinkerPrimerSequence pueden tener cualquier secuencia, solo sirve para que pueda correr el script.
Validación
Una vez creado el archivo de metadatos (map.txt) se debe validar para que no tenga errores que alteren los resultados de QIIME. La validación se puede realizar con comandos o bien en una hoja de cálculo de GoogleDocs previa instalación de Keemei.
MUY IMPORTANTE: los nombres (o códigos) de las muestras en el archivo de metadatos deben ser IDENTICOS a los nombres de las secuencias! Además debe haber el mismo número de nombres que el número de muestras secuencias para analizar. Checar bien el archivo metadatos pues es la fuente de muchos errores en el análisis.
Metadatos para STAMP
Statistical Analysis of Metagenomic Profiles (STAMP) necesita obtener la información de las muestras analizadas de un archivo con un formato específico, muy similar al de QIIME.
Muestra dato1 dato2 dato3 dato_n
El nombre de la muestra debe ser igual a la primera parte del nombre de las secuencias; los nombres de las secuencias deben empezar por el nombre de la muestra, guión bajo y luego un número consecutivo. Los datos pueden ser cualquier característica de la muestra.
NO usar Word. Si se usa Excel guardar el archivo como “tab delimited file”. Nombrar el archivo “metafile.txt”.