Panseq

Panseq nos permite obtener el pangenoma de un grupo de genomas además de regiones núcleo y accesorias. También permite extraer las regiones únicas en un genoma (comparado con otros) y SNPs.

"Panseq determines the core and accessory regions among a collection of genomic sequences based on user-defined parameters. It readily extracts regions unique to a genome or group of genomes, identifies SNPs within shared core genomic regions, constructs files for use in phylogeny programs based on both the presence/absence of accessory regions and SNPs within core regions. It also provides a loci selector that efficiently computes the most discriminatory loci from a tab-delimited dataset."

Para correr este programa necesitamos crear un archivo de texto delimitado por tabuladores con la información necesaria para Panseq. El archivo llamado settings.txt tiene la siguiente estructura:

queryDirectory query/

queryFile genome.fasta

referenceDirectory ref/

baseDirectory panseq_results/

numberOfCores 12

mummerDirectory /usr/bin/

blastDirectory /usr/bin/

minimumNovelRegionSize 500

novelRegionFinderMode no_duplicates

muscleExecutable /usr/bin/muscle

fragmentationSize 500

percentIdentityCutoff 85

coreGenomeThreshold 2

runMode novel

Los parámetros que tenemos que editar son los marcado en negritas:

runMode El tipo de análisis: novel, encuentra regiones únicas en el genoma query y pan, obtiene el pangenoma de todos los genomas en el directorio queryDirectory.

queryDirectory Es el directorio donde está el genoma(s) a comparar, este directorio es el único que se usa al buscar el pangenoma.

queryFile Es el archivo con el genoma a analizar para obtener sus regiones únicas, solo se usa con la opción "novel".

referenceDirectory El directorio donde están los genomas de referencia o contra los que se va a comparar, solo se usa con la opción "novel".

teniendo el archivo settings.txt podemos correr el programa:

$ perl /opt/Panseq/lib/panseq.pl settings.txt

Con el fin de facilitar la edición de este archivo tenemos el script panseq_settings.sh que crea el archivo settings.txt y pregunta si se quiere de una vez ejecutar Panseq.