RDP

Las secuencias de cada muestra se pueden clasificar, asignarle un taxonomía a cada una, por medio de varios clasificadores, uno de los mejores es el del Ribosomal Database Project (RDP) Classifier.

IMPORTANTE: para clasificar con RDP, las secuencias de cada muestra deben estar en un archivo independiente con terminación .fasta. NO concatenar todas las muestras en un solo archivo (paso 8 de Limpieza).

Pasos a seguir:

PASO 1. Limpieza de secuencias.

PASO 2. Eliminación de quimeras.

PASO 3. Descontaminación

PASO 4. Clasificación

Se pueden subir las secuencias a su página web o bien correr el programa desde la terminal con el siguiente comando, éstos parámetros están ajustados para secuencias cortas (menores a 250 pb). Una descipción detallada se encuentra aqui.

Una ventaja de este clasificador es que ajusta el resultado de número de otus considerando el número de copias del gen 16S en cada grupo de bacterias mediante el parámetro -f filterbyconf.

$ java -Xmx1g -jar /opt/rdp_classifier_2.10.1/dist/classifier.jar classify -c 0.5 -f filterbyconf -o classified.txt -h hier.txt FILE.fasta

Tenemos un script que permite realizar la clasificación con RDP mas facilmente: RDP_classifier

$ RDP_classifier

Este script procesa todos los archivos que se encuentran el el directorio desde el que se ejecuta, que deben ser los archivos multifasta de las secuencias ya limpias y sin quimeras de cada una de las muestras individualmente. Los archivos deben tener terminación .fasta. Al tener que clasificar cada una de las secuencias puede tardar mucho.

Si los archivos no tienen terminación .fasta, se pueden cambiar con el script change_extention. El script cambia todos los archivos del directorio con una terminación (.fa) por la que se quiera (.fasta) como se muestra a continuación:

$ change_extention fa fasta

El script genera los siguientes resultados en una nueva carpeta llamada RDP:

  • Los resultados de la clasificación de todas las secuencias los escribe a una nueva carpeta llamada classified con formato .xls; un archivo por cada muestra analizada.
  • Para cada muestra genera un resumen de número de OTUs por taxón en la carpeta hier; además genera un archivo (merged_hier.xls) en donde conjunta todas las muestras, útil para generar gráficas.
  • Los resultados del número de OTUs por taxón ajustado al número de copias del 16S por taxón se encuentra en la carpeta adjusted. Genera también un archivo (16Sadjusted_hier.xls) que incluye todas las muestras ajustadas, útil para generar gráficas.

PASO 5. Visualización.

De los archivos generados en el paso 4 se pueden generar gráficas para su visualización.

PASO 6. Análisis estadísticos con STAMP.