Es probable que se amplifiquen algunas secuencias del gen 18S ribosomal de eucariontes o 16s de mitocondrias o cloroplastos, las cuales serían una contaminación y es deseable eliminarlas o separarlas para algún otro análisis. Podemos hacer esta separación haciendo un blast a la base de datos SILVA y generar varios archivos, uno con las secuencias que no tuvieron hits a la base de datos (por lo tanto bacterias o archaeas), otro con las que si tuvieron hits (Eukayota) y otros (ver abajo).
A partir de la versión 1.37 de MGlinux tenemos ya la base de datos SILVA.
Este script usa un archivo con las secuencias de una o varias muestras concatenadas obtenidas del paso de limpieza o mejor, del archivo generado por el script chimera que limpia las quimeras existentes.
$ Eukaryota file.fasta
file.fasta = archivo con las secuencias a limpiar de lecturas eucariontes; puede ser el archivo ya libre de quimeras.
NOTA. Debido a lo intensivo del análisis computacional, se recomienda que se realize en un servidor bioinformático.
El script genera varios archivos de salida:
Si queremos analizar cada una de las muestras por separado, podemos correr el script anterior para cada uno de los archivos limpios de quimeras, lo cual es tediosos, o bien podemos correr una variante del script anterior que procese todos los archivos con terminación .fasta de un directorio.
$ Eukaryota_all.sh