Limpieza secuencias metagenómicas

Las plataformas de secuenciación normalmente entregan las lecturas mas o menos limpias (calidad razonable) pero de varios tamaños. También divididas ya por muestras, ya que en metagenómica se emplean barcodes para secuenciar varias muestras por corrida. Por lo tanto no es necesario dividir las lecturas por muestra (demultiplexing) y solo hay que hacer algunos pasos para poderlas analizar.

La limpieza de las secuencias depende del tipo de secuenciador que se usó ya que éstas pueden ser sencillas o pareadas.

Siempre es recomendable primero correr fastqc para ver la calidad de las lecturas que se obtuvieron del secuenciador.

Descontaminación

La contaminación de ADN humano siempre puede ser un problema y deberíamos eliminar las secuencias contaminantes. Para realizar esto podemos usar el programa Hostile instalado ya en BioBacter en CONDA:

$ conda activate hostile

$ hostile clean --fastq1 FASTQ1 --fastq2 FASTQ2 --out-dir OUT_DIR --threads 8