En esta página se encuentran una serie de scripts útiles para realizar diversas acciones con secuencias de ADN. Los scripts se pueden bajar desde la siguiente página.
Script disponibles en Github
Basic fasta statistics
$ basic_stats.pl your_fasta_file
fastq_count.sh
Cuenta el número de secuencias y de bases en un archivo multifastq.
$ fastq_count.sh FILE.fastq
GB2Fasta
Convierte de formato Genbank a fasta.
$ GB2Fasta.pl file.gbk file.fasta
fastaq_to_fasta
Convierte de formato fastq a fasta.
$ fastaq_to_fasta -i file.fastq -o file.fasta
fastq2qual_fasta
Convierte de formato fastq a formatos qual y fasta.
$ fastq2qual_fasta.pl -i file.fastq -q file.qual -f file.fasta
Un mejor convertidor es prinseq
header_parser.pl.
Reducir los encabezados de las secuencias fasta para dejar solo como título hasta el primer espacio.
Uso:
$ perl header_parser.pl file.fasta > file2.fasta
header_renamer.sh
Cambia el nombre de las secuencias en un archivo multifasta
Uso:
$ header_renamer file.fasta nombre > file2.fasta
extract2krona
Mediante este script es posible extraer los datos metagenómicos de una muestra (OTUs y taxonomía) para poder ser usados en KRONA. El script pide el número de columna queremos extraer (valores de OTUs) y genera un archivo con los datos de taxonomía y de OTU para esa muestra. Finalmente genera una gráfica de pie en formato html en una nueva carpeta llamada Krona.
$ extract2krona otus.xls
RDP_classifier
Este script procesa todos los archivos que se encuentran el el directorio desde el que se ejecuta, que deben ser los archivos multifasta de las secuencias ya limpias y sin quimeras de cada una de las muestras individualmente. Los archivos deben tener terminación fna. Al tener que clasificar cada una de las secuencias puede tardar mucho.
El script genera los siguientes resultados en una nueva carpeta llamada RDP:
Los resultados de la clasificación de todas las secuencias los escribe a una nuevo directorio llamado classified con formato .xls; un archivo por cada muestra analizada.
Para cada muestra genera un resumen de número de OTUs por taxón en la carpeta hier; además genera un archivo (merged_hier.xls) en donde conjunta todas las muestras, útil para generar gráficas.
Los resultados del número de OTUs por taxón ajustado al número de copias del 16S por taxón se encuentra en la carpeta adjusted. Genera también un archivo (16Sadjusted_hier.xls) que incluye todas las muestras, útil para generar gráficas.
$ RDP_classifier.sh
Obtención de genomas
Este script buscará Whole Genome Sequences (WGS) en GenBank y las descargará al directorio donde estemos trabajando. El script empezará desde bajar el archivo prokaryotes.txt, si es que no existe ya, pedirnos una palabra a buscar en el archivo, que puede ser el género o las especie o algún otro dato del WGS, y luego el se encarga de los genomas, renombrarlos con el nombre de la especie y descomprimirlos.
$ wgs_download.sh