Pathways

Con Anvio también se pueden reconstruir rutas metabólicas usando la base de datos KEGG y Módulos KEGG. Es un proceso todavía experimental pero funcional. Una descripción detallada se encuentra aquí.

Este procedimiento se encuentra instalado en una versión de Anvio experimental en el servidor Biobacter: /opt/github/anvio/ por lo que hay que activarlo de manera diferente que la versión ya liberada.

Si no tenemos activado conda en nuestro ambiente del servidor, podemos hacerlo con el siguiente comando:

$ source /opt/miniconda2/etc/profile.d/conda.sh

Luego ya podemos activar la versión anvio-master con conda:

$ conda activate anvio-master

Una vez activado, podemos ya correr un par de comandos, pero primero tenemos que haber ya generado una base de datos con Anvio y migrar esta base de datos, en este ejemplo llamada CONTIGS.db

NOTA. Estos procesos pueden durar algún tiempo, por lo que se recomienda correrlos con screen.

$ /opt/github/anvio/bin/anvi-migrate --migrate-dbs-quickly CONTIGS.db
$ /opt/github/anvio/bin/anvi-run-kegg-kofams -c CONTIGS.db --num-threads 8
$ /opt/github/anvio/bin/anvi-estimate-metabolism -c CONTIGS.db

El resultado es un archivo de texto (kegg-metabolism_modules.txt) que tiene los módulos encontrados en KEGG que corresponden a las rutas metabólicas; éstas pueden haberse encontrado completas (si tienen más del 75% de los pasos de la ruta encontrados) o incompletas.

Ejemplo del archivo de salida

El archivo kegg-metabolism_modules.txt es de texto separado por tabuladores que comprende 12 columnas:

  1. unique_id
  2. genome_name
  3. kegg_module
  4. module_name
  5. module_class
  6. module_category
  7. module_subcategory
  8. module_definition
  9. module_completeness
  10. module_is_complete
  11. kofam_hits_in_module
  12. gene_caller_ids_in_module
0 TEST015 M00001 Glycolysis (Embden-Meyerhof pathway), glucose => pyruvate Pathway modules Carbohydrate metabolism Central carbohydrate metabolism "(K00844,K12407,K00845,K00886,K08074,K00918) (K01810,K06859,K13810,K15916) (K00850,K16370,K21071,K00918) (K01623,K01624,K11645,K16305,K16306) K01803 ((K00134,K00150) K00927,K11389) (K01834,K15633,K15634,K15635) K01689 (K00873,K12406)" 0.9 True K01624,K01689,K01810,K00927,K00873,K00134,K01803,K15633,K00850 1790,570,429,428,1341,1280,1637,1426,2631,2630,90,89,88,197

Para el ejemplo anterior, si queremos recuperar las secuencias correspondientes a los genes de esta ruta metabólica (Glycolysis), podemos extraerlos (última columna) de la base de datos con el siguiente comando:

$ anvi-get-sequences-for-gene-calls -c CONTIGS.db --gene-caller-ids 1790,570,429,428,1341,1280,1637,1426,2631,2630,90,89,88,197 -o M00001.fa

Tendremos así un nuevo archivo con las secuencias de ADN llamado M00001.fa

Script

pathway_reconstruction.v0.0.1.sh

Este script nos permite hacer toda la reconstrucción de las rutas metabólicas y además genera un informe de resultados. Uso:

$ pathway_reconstruction CONTIGS.db