Scripts

En esta página se encuentran una serie de scripts útiles para realizar diversas acciones con secuencias de ADN. Los scripts se pueden bajar desde la siguiente página.

Script disponibles en Github

Basic fasta statistics

$ basic_stats.pl your_fasta_file

fastq_count.sh

Cuenta el número de secuencias y de bases en un archivo multifastq.

$ fastq_count.sh FILE.fastq

Convertir secuencias

GB2Fasta

Convierte de formato Genbank a fasta.

$ GB2Fasta.pl file.gbk file.fasta

fastaq_to_fasta

Convierte de formato fastq a fasta.

$ fastaq_to_fasta -i file.fastq -o file.fasta

fastq2qual_fasta

Convierte de formato fastq a formatos qual y fasta.

$ fastq2qual_fasta.pl -i file.fastq -q file.qual -f file.fasta

Un mejor convertidor es prinseq

Corregir secuencias

header_parser.pl.

Reducir los encabezados de las secuencias fasta para dejar solo como título hasta el primer espacio.

Uso:

$ perl header_parser.pl file.fasta > file2.fasta

header_renamer.sh

Cambia el nombre de las secuencias en un archivo multifasta

Uso:

$ header_renamer file.fasta nombre > file2.fasta

extract2krona

Mediante este script es posible extraer los datos metagenómicos de una muestra (OTUs y taxonomía) para poder ser usados en KRONA. El script pide el número de columna queremos extraer (valores de OTUs) y genera un archivo con los datos de taxonomía y de OTU para esa muestra. Finalmente genera una gráfica de pie en formato html en una nueva carpeta llamada Krona.

$ extract2krona otus.xls

RDP_classifier

Este script procesa todos los archivos que se encuentran el el directorio desde el que se ejecuta, que deben ser los archivos multifasta de las secuencias ya limpias y sin quimeras de cada una de las muestras individualmente. Los archivos deben tener terminación fna. Al tener que clasificar cada una de las secuencias puede tardar mucho.

El script genera los siguientes resultados en una nueva carpeta llamada RDP:

Los resultados de la clasificación de todas las secuencias los escribe a una nuevo directorio llamado classified con formato .xls; un archivo por cada muestra analizada.
Para cada muestra genera un resumen de número de OTUs por taxón en la carpeta hier; además genera un archivo (merged_hier.xls) en donde conjunta todas las muestras, útil para generar gráficas.
Los resultados del número de OTUs por taxón ajustado al número de copias del 16S por taxón se encuentra en la carpeta adjusted. Genera también un archivo (16Sadjusted_hier.xls) que incluye todas las muestras, útil para generar gráficas.

$ RDP_classifier.sh

Genómica

Obtención de genomas

Este script buscará Whole Genome Sequences (WGS) en GenBank y las descargará al directorio donde estemos trabajando. El script empezará desde bajar el archivo prokaryotes.txt, si es que no existe ya, pedirnos una palabra a buscar en el archivo, que puede ser el género o las especie o algún otro dato del WGS, y luego el se encarga de los genomas, renombrarlos con el nombre de la especie y descomprimirlos.

$ wgs_download.sh

Compile clasifications

Page updated

Report abuse