Illumina pair-end

pair-end_cleaner.sh

version 1.1.0

Las secuencias generadas por Illumina generalmente son pareadas (pair-end), esto es que se tienen dos secuencias para la misma molécula de ADN, una 3' -> 5' y la otra 5' -> 3'. Además el equipo genera una carpeta por muestra con ambas secuencias llamadas nombre-muestra_L001_R1.fastq.gz y nombre-muestra_L002_R2.fastq.gz. Es común también que Illumina genere una carpeta para cada una de las muestras con ambos tipos de secuencias comprimidas. Incluso, cada carpeta puede incluir otras subcarpetas con otra información y las secuencias dentro de una subcarpeta llamada Files. Es importante ver esta estructura para poder proceder adecuadamente.

Es necesario, descomprimirlas, limpiarlas, ensamblarlas y convertirlas a fasta; para cada muestra. Para realizar esto tenemos el script pair-end_cleaner.sh que hace todo esto para cada una de las muestras (carpetas o subdirectorios) en un directorio, siempre y cuando las secuencias estén directamente dentro de la carpeta de cada muestra y no en subcarpetas dentro de la carpeta, como se muestra a continuación:

├── sample1
│   ├── sample1_L001_R1_001.fastq.gz
│   └── sample1_L001_R2_001.fastq.gz
├── sample2
│   ├── sample2_L001_R1_001.fastq.gz
│   └── sample2_L001_R2_001.fastq.gz
└── sample3
    ├── sample3_L001_R1_001.fastq.gz
    └── sample3_L001_R2_001.fastq.gz

El script puede correrse solo con pair-end_cleaner.sh y cerrar la terminal, él seguirá corriendo; si se quiere "matar" el proceso, teclear Ctrl z Puede tardar bastante en terminar por lo que hay que tener paciencia. Si se termina antes de que haya procesado todos los subdirectorios, puede generar un error pues hace un proceso con todos los archivos al final.

Los resultados los guarda en una nueva carpeta llamada /assembled.xxx, con todas las secuencias limpias y renombradas (muestra_01, _02, etc.) en formato fasta.

El script genera los siguientes archivos:

├── assembled.2017-07-24_14:13
   ├── pair-end_cleaner.report.md Reporte markdown del análisis.
   ├── pair-end.log               Bitácora de los análisis que se realizaron a detalle.
   ├── pair-end.csv               Número de secuencias por muestra, útil para graficar resultados
   ├── pair-end.plot.csv          Datos para graficar en R.
   ├── pair-end.png               Gráfica de barras de los resultados.
   ├── sample1.fna                
   ├── sample2.fna                Secuencias de cada muestra limpias, ensambladas y renombradas.
   └── sample3.fna

Pasos del script en orden de ejecución:

  1. Busca adaptadores
  2. Elimina bases menores a Q20
  3. Quita "n"
  4. Elimina bases mas allá de 150 para química de 2X150
  5. Elimina las secuencias inferiores a 110
  6. Ensambla ambas secuencias pareadas en un sola con PEAR
  7. Convierte de fastq a fasta
  8. Renombra las secuencias con el nombre del archivo mas un número consecutivo

NOTA. Esta limpieza está diseñada para la región V3, V4 y V3-V4 del 16S rRNA. Será necesario hacer ajustes para otras regiones.

Script

El script ya se encuentra en Github listo para su descarga.