Panseq
Panseq nos permite obtener el pangenoma de un grupo de genomas además de regiones núcleo y accesorias. También permite extraer las regiones únicas en un genoma (comparado con otros) y SNPs.
"Panseq determines the core and accessory regions among a collection of genomic sequences based on user-defined parameters. It readily extracts regions unique to a genome or group of genomes, identifies SNPs within shared core genomic regions, constructs files for use in phylogeny programs based on both the presence/absence of accessory regions and SNPs within core regions. It also provides a loci selector that efficiently computes the most discriminatory loci from a tab-delimited dataset."
Para correr este programa necesitamos crear un archivo de texto delimitado por tabuladores con la información necesaria para Panseq. El archivo llamado settings.txt tiene la siguiente estructura:
queryDirectory query/
queryFile genome.fasta
referenceDirectory ref/
baseDirectory panseq_results/
numberOfCores 12
mummerDirectory /usr/bin/
blastDirectory /usr/bin/
minimumNovelRegionSize 500
novelRegionFinderMode no_duplicates
muscleExecutable /usr/bin/muscle
fragmentationSize 500
percentIdentityCutoff 85
coreGenomeThreshold 2
runMode novel
Los parámetros que tenemos que editar son los marcado en negritas:
runMode El tipo de análisis: novel, encuentra regiones únicas en el genoma query y pan, obtiene el pangenoma de todos los genomas en el directorio queryDirectory.
queryDirectory Es el directorio donde está el genoma(s) a comparar, este directorio es el único que se usa al buscar el pangenoma.
queryFile Es el archivo con el genoma a analizar para obtener sus regiones únicas, solo se usa con la opción "novel".
referenceDirectory El directorio donde están los genomas de referencia o contra los que se va a comparar, solo se usa con la opción "novel".
teniendo el archivo settings.txt podemos correr el programa:
$ perl /opt/Panseq/lib/panseq.pl settings.txt
Con el fin de facilitar la edición de este archivo tenemos el script panseq_settings.sh que crea el archivo settings.txt y pregunta si se quiere de una vez ejecutar Panseq.