Scripts

En esta página se encuentran una serie de scripts útiles para realizar diversas acciones con secuencias de ADN. Los scripts se pueden bajar desde la siguiente página.

Script en GitHub.

Uso:

$ basic_stats.pl your_fasta_file

fastq_count.sh

Cuenta el número de secuencias y de bases en un archivo multifastq.

$ fastq_count.sh FILE.fastq

Convertir secuencias

GB2Fasta

Convierte de formato Genbank a fasta.

$ GB2Fasta.pl file.gbk file.fasta

fastaq_to_fasta

Convierte de formato fastq a fasta.

$ fastaq_to_fasta -i file.fastq -o file.fasta

fastq2qual_fasta

Convierte de formato fastq a formatos qual y fasta.

$ fastq2qual_fasta.pl -i file.fastq -q file.qual -f file.fasta

Un mejor convertidor es prinseq

Corregir secuencias

header_parser.pl.

Reducir los encabezados de las secuencias fasta para dejar solo como título hasta el primer espacio.

Uso:

$ perl header_parser.pl file.fasta > file2.fasta

header_renamer.sh

Cambia el nombre de las secuencias en un archivo multifasta

Uso:

$ header_renamer file.fasta nombre > file2.fasta

Metagenómica

metag_seq_cleaner.sh

Este script limpia secuencias tipo fastq Q20, quita primers fwd y rvs, elimina secuencias cortas (130 bases), recorta las secuencias a no mas de 180 bases,

enumera las secuencias consecutivamente y genera un archivo limpio en formato fasta.

Este script tiene las siguientes dependencias: fastq_quality_trimmer, fastq_to_fasta, fasta_histo.pl, cutadapt, fastx_trimmer.

$ metag_seq_cleaner.sh

mg_cleaner.sh

En el servidor biobacter tenermos un script que realiza todos los pasos de limpieza y descontaminación a la vez; éste se puede invocar con:

$ mg_cleaner &

Es necesario tener todos los archivos fastq en un directorio, los archivos ya tiene que tener un nombre sencillo (ver arriba). Debido a que este script puede tardar bastante (horas), al final del comando se puede poner un & para que el script corra a pesar de que se cierre la terminal; de esta manera se puede dejar trabajando el servidor y regresar después a ver si ya terminó.

QIIME.sh

Este script realiza toda una serie de análisis:

  1. Clasifica las lecturas en OTUs con uclust usando la base de datos Greengenes.

  2. Genera un resumen y microbioma núcleo.

  3. Obtiene las diversidades alfa y beta.

  4. Curvas de rarefacción.

  5. Generar tablas para análisis.

Para hacer esto es necesario tener las secuencias en un archivo multifasta y un archivo con los metadatos.

Este script tiene las siguientes dependencias: QIIME 1.9, biom_parser_1.1, L5_parser y L6_parser.

$QIIME

L6_parser.pl

Formatea el archivo de resultados de asignación de otus a nivel género por QIIME (otus_table_L6.txt) para ser usado por Excel.

L5_parser.pl

Formatea el archivo de resultados de asignación de otusa nivel familia por QIIME (otus_table_L5.txt) para ser usado por Excel.

biom_parser.pl

This script formats the otu_table.txt converted from the otu_table.biom generated with QIIME to be used by Excel. It produces a TAB delimited file. The bio table was converted with bio convert 2.1.3:

$ biom convert -i otu_table.biom -o otu_table.txt --to-tsv --header-key taxonomy

extract2krona

Mediante este script es posible extraer los datos metagenómicos de una muestra (OTUs y taxonomía) para poder ser usados en KRONA. El script pide el número de columna queremos extraer (valores de OTUs) y genera un archivo con los datos de taxonomía y de OTU para esa muestra. Finalmente genera una gráfica de pie en formato html en una nueva carpeta llamada Krona.

$ extract2krona otus.xls

RDP_classifier

Este script procesa todos los archivos que se encuentran el el directorio desde el que se ejecuta, que deben ser los archivos multifasta de las secuencias ya limpias y sin quimeras de cada una de las muestras individualmente. Los archivos deben tener terminación fna. Al tener que clasificar cada una de las secuencias puede tardar mucho.

El script genera los siguientes resultados en una nueva carpeta llamada RDP:

  • Los resultados de la clasificación de todas las secuencias los escribe a una nuevo directorio llamado classified con formato .xls; un archivo por cada muestra analizada.

  • Para cada muestra genera un resumen de número de OTUs por taxón en la carpeta hier; además genera un archivo (merged_hier.xls) en donde conjunta todas las muestras, útil para generar gráficas.

  • Los resultados del número de OTUs por taxón ajustado al número de copias del 16S por taxón se encuentra en la carpeta adjusted. Genera también un archivo (16Sadjusted_hier.xls) que incluye todas las muestras, útil para generar gráficas.

$ RDP_classifier.sh

Genómica

Obtención de genomas

Este script buscará Whole Genome Sequences (WGS) en GenBank y las descargará al directorio donde estemos trabajando. El script empezará desde bajar el archivo prokaryotes.txt, si es que no existe ya, pedirnos una palabra a buscar en el archivo, que puede ser el género o las especie o algún otro dato del WGS, y luego el se encarga de los genomas, renombrarlos con el nombre de la especie y descomprimirlos.

$ wgs_download.sh