Fenotipos

De un genoma podemos obtener datos del probable fenotipo que tenga la cepa bactariana. Para esto podemos usar el programa traitar.

Analizar que fenotipos tienen unos genomas debe partir de contigs ya ensamblados y es necesario conocer los genes que tiene cada genoma y su secuencia de aminoácidos. Aunque traitar puede obtener los genes de cada genoma, es mejor hacerlo un mismo con prodigal. Asumiendo que los genomas los tenemos ya en formato fasta de nucleótidos, podemos hacer un for loop para extraer los genes a cada uno:

$ for f in *.fasta; do prodigal -i $f -a $f; done

Este comando nos creará nuevos archivos con la terminación .faa pero incluyendo también .fasta (*.fasta.faa) por lo que habrá que limpiarlos:

$ rename 's/.fasta.faa/.faa/' *.faa

Debemos poner todos estos archivos en un nuevo directorio para poderlo llamar desde traitar:

$ mkdir faa
$ mv *.faa faa/

Ahora debemos crear un archivo con los nombres de los archivos de los genomas en la columna 1 y un nombre del genoma en la columna 2. Podemos poner una tercer columna si sabemos queremos agrupar los genomas por algún motivo. Las columnas deben estar delimitadas por tabuladores y tener un encabezado en la primer linea. Podemos llamar a este archivo genome.list

sample_file_name     sample_name       category
ANC419_LTYK01.faa    ANC419_LTYK01     Clade_1
ARGOS108.faa         ARGOS108          Clade_1
ATCC17749_LOSN02.faa ATCC17749_LOSN02  Clade_2
ATCC33787.faa        ATCC33787         Clade_3

Nota. La tercer columna es opcional. Pero la primer linea es obligatoria y con ese texto exacto, salvo el category si no hay esa información.

Ahora si podemos correr traitar:

$ traitar phenotype faa genome.list from_genes traitar -c8

Donde

phenotype   indica que obtendremos fenotipos
faa         es el directorio donde están los archivos con los genes en secuencia de aminoácidos
genome.list es el archivo generado anteriormente
from_genes  especifica que es a partir de genes
traitar     es el directorio de salida en donde va a escribir los resultados
-c 8        usaremos 8 núcleos del servidor

Traitar puede tardar mucho en correr por lo que es aconsejable correrlo con screen.