Ion Torrent

Las lecturas generadas por la plataforma Ion Torrent en general son bastante limpias.

Limpieza de las lecturas Ion Torrent

Entonces debemos eliminar las bases de baja calidad, las lecturas chicas y quitar las bases a la extrema derecha:

$ fastq_quality_trimmer -t 20 -l 20 –i file.fastq -o file_trim.fastq

-t Valor de calidad mínimo a conservar (Q20)

-l Longitud mínima de las lecturas a conservar (20 bp), esto debe ir después de cortar la calidad (-t).

-i Archivo a limpiar.

-o Nombre del archivo de salida.

$ fastx_trimmer -f 10 -l 230 -i file.fastq -o file_trim2.fastq

-f Número de bases a recortar a la izquierda (3').

-l Recortar a partir de que número de base a la derecha (5').

-i Archivo a recortar, usar el que se generó con el script anterior (file_trim.fastq).

-o Nombre del nuevo archivo recortado de salida.

Conversión de archivos

Dependiendo del ensamblador, podrá ser necesario convertir de formato fastq a fasta y qual; Newbler si necesita los archivos .fasta y .qual, mientras que SPAdes solo los .fastq. Para convertirlos usaremos Prinseq:

$ prinseq-lite.pl -fastq file_trim2.fastq  -out_format 2   

-out_format 2 Genera dos archivos, una fasta y otro qual, éstos son usados por Newbler para el ensamble de contigs.

Pureza de las lecturas

Muchas veces queremos estar seguros que nuestras lecturas no están contaminadas con lecturas de otros genomas bacterianos, esto puede suceder si la cepa que se secuenció no era pura. Para esto se pueden subir las lecturas (fasta o fastq) comprimidas (gzipped) al servidor Genome Peek.

Para comprimir:

$ gzip file.fasta > file.gz