version 1.1.0
Las secuencias generadas por Illumina generalmente son pareadas (pair-end), esto es que se tienen dos secuencias para la misma molécula de ADN, una 3' -> 5' y la otra 5' -> 3'. Además el equipo genera una carpeta por muestra con ambas secuencias llamadas nombre-muestra_L001_R1.fastq.gz y nombre-muestra_L002_R2.fastq.gz. Es común también que Illumina genere una carpeta para cada una de las muestras con ambos tipos de secuencias comprimidas. Incluso, cada carpeta puede incluir otras subcarpetas con otra información y las secuencias dentro de una subcarpeta llamada Files. Es importante ver esta estructura para poder proceder adecuadamente.
Es necesario, descomprimirlas, limpiarlas, ensamblarlas y convertirlas a fasta; para cada muestra. Para realizar esto tenemos el script pair-end_cleaner.sh que hace todo esto para cada una de las muestras (carpetas o subdirectorios) en un directorio, siempre y cuando las secuencias estén directamente dentro de la carpeta de cada muestra y no en subcarpetas dentro de la carpeta, como se muestra a continuación:
├── sample1
│ ├── sample1_L001_R1_001.fastq.gz
│ └── sample1_L001_R2_001.fastq.gz
├── sample2
│ ├── sample2_L001_R1_001.fastq.gz
│ └── sample2_L001_R2_001.fastq.gz
└── sample3
├── sample3_L001_R1_001.fastq.gz
└── sample3_L001_R2_001.fastq.gz
El script puede correrse solo con pair-end_cleaner.sh
y cerrar la terminal, él seguirá corriendo; si se quiere "matar" el proceso, teclear Ctrl z Puede tardar bastante en terminar por lo que hay que tener paciencia. Si se termina antes de que haya procesado todos los subdirectorios, puede generar un error pues hace un proceso con todos los archivos al final.
Los resultados los guarda en una nueva carpeta llamada /assembled.xxx
, con todas las secuencias limpias y renombradas (muestra_01, _02, etc.) en formato fasta.
El script genera los siguientes archivos:
├── assembled.2017-07-24_14:13
├── pair-end_cleaner.report.md Reporte markdown del análisis.
├── pair-end.log Bitácora de los análisis que se realizaron a detalle.
├── pair-end.csv Número de secuencias por muestra, útil para graficar resultados
├── pair-end.plot.csv Datos para graficar en R.
├── pair-end.png Gráfica de barras de los resultados.
├── sample1.fna
├── sample2.fna Secuencias de cada muestra limpias, ensambladas y renombradas.
└── sample3.fna
Pasos del script en orden de ejecución:
NOTA. Esta limpieza está diseñada para la región V3, V4 y V3-V4 del 16S rRNA. Será necesario hacer ajustes para otras regiones.
El script ya se encuentra en Github listo para su descarga.