Limpieza de lecturas genómicas

Tipos de lecturas (reads)

Dependiendo de la plataforma de secuenciación, podemos tener básicamente dos tipos de lecturas. La plataforma Ion Torrent genera una sola secuencia mientras que la Illumina puede generar también una sola, pero mas comúnmente dos, una secuencia en dirección forward y otra en reverse (pair end) de un segmento de ADN que pueden traslaparse o no. Cada una tiene sus particularidades, checar las subpáginas:

Características de las lecturas

Primero vamos a ver las características de las lecturas obtenidas del secuenciador. El programa FastQC nos permite analizar las lecturas, una mejor opción es Prinseq que se puede correr online o desde linea de comandos. Existen varios script que nos permiten rápidamente obtener un resumen de número de lecturas, tamaño total, tamaño promedio, mínimo, máximo, %GC, etc.

Si el archivo es fastq, necesitamos un método para cuantificar el número se secuencias en ese tipo de archivos. Podemos usar un script llamado count_fastq.sh o bien con el siguiente comando:

$ expr $(cat file.fastq | wc -l) / 4

Como ejemplo vamos a ver las lecturas de una cepa bacteriana (36R), la distribución de frecuencias de las lecturas se aprecia en la siguiente figura:

Calidad de las lecturas

Un buen programa para ver la calidad de las secuencias es FastQC. Lo primero que debemos hacer es correr este programa para darnos una idea general de la calidad de nuestra secuenciación. La imagen de abajo muestra la ventana principal donde se ve que varios de los análisis realizados al archivo de secuencias fastq no pasaron (botones en rojo). Es necesario limpiar y cortar las secuencias para lograr que todos los botones estén en verde o amarillo.

El primer punto a considerar es la calidad de las secuencias (Per base sequence quality) que en este caso está en amarillo y como podemos apreciar es la siguiente figura, esto es por que la calidad disminuyó radicalmente al final de la secuenciación (valores inferiores a Q20). Es necesario quitar estas bases finales.

EL segundo análisis que no paso es Per base sequence content, en este caso muestra las proporción de bases que se aleja de común en cada posición de la secuencia (fig 3). En este caso debemos eliminar las primeras 10 bases y a partir de la 230.

El último punto importante es el Kmer content, como se ve en la figura de abajo, estos "palabras" también están en la parte final de las secuencias, por lo que con el trimming que se realiza anteriormente, también se van estos.

Si se hace una correcta limpieza, un reanálisis con FastQC debe salir al menos sin botones rojos (siguiente figura).