Curso de introducción a la bioinformática e investigación reproducible
Las lecturas crudas obtenidas del secuenciador en Next Generation Sequencing (NGS) pueden contener secuencias de adaptadores usados en la secuenciación, contaminantes y sitios con bajas calidades.
Comúnmente en el extremo 3’ de las lecturas posee una menor calidad que el extremo 5’.
El procesamiento de las lecturas para eliminar las secuencias pertenecientes a adaptadores y los pares de bases con baja calidad se denomina Trimming.
Para realizar un trimming adecuado de lecturas se debe hacer un análisis previo de la calidad de la secuenciación mediante el programa FastQC.
Conectarse al Servidor
ssh -Y bioinfo1@genoma.med.uchile.cl
La contraseña fue proyectada en clase, pregunten en gitter si no la recuerdan.
Usando las lecturas crudas de una secuenciación NGS ejecute FastQC:
Los datos están en Datos: 181004_curso_calidad_datos_NGS/fastq_raw
mkdir jperez
cd jperez
$ fastqc “archivo_fastq” -o “directorio_salida”
Ejemplo de una muestra usando las lecturas crudas:
$ fastqc ../181004_curso_calidad_datos_NGS/fastq_raw/S3_R1.fastq.gz -o .
El punto al final es importante (significa, usar este directorio para el resultado)
Se realiza una poda de los datos para eliminar adaptadores, lecturas con la secuencia del fago PhiX y lecturas con una calidad baja.
Usando las filtradas ejecute FastQC para contrastar las diferencias tras el filtro:
Datos: bioinfo1/181004_curso_calidad_datos_NGS/fastq_filter
Ejemplo de la muestra anterior usando las lecturas filtradas:
$ fastqc ../181004_curso_calidad_datos_NGS/fastq_filter/S3_R1_filter.fastq.gz -o .
*Imagen de la calidad de las secuencias generada por FastQC. * |
Realizar los siguientes puntos tanto para las secuencias crudas y podadas. Además de generar los informes de calidades deben realizar una comparación de los resultados. Recuerden que la ubicación de las secuencias crudas es en el directorio: 181004_curso_calidad_datos_NGS/fastq_raw/ y las secuencias ya podadas se encuentran en 181004_curso_calidad_datos_NGS/fastq_filter
Genere un informe de calidad con FastQC para una muestra (cada estudiante una muestra distinta), para R1 y R2.
Baje los archivos HTML a su computados mediante sftp (puede usar cualquier cliente o la línea de comandos. Por ejemplo, ejecutando desde su computador local:
scp bioinfo1@genoma.med.uchile.cl:ricardo/S3_R1_fastqc* .
Nota: el punto al final es importante, porque dice que los archivos deben copiarse en el directorio actual (en el computador local). Nota 2: el asterisco significa cualquier caracter(es) y permite hacer match con múltiples archivos.
Analice el informe de calidad creado con fastqc para las lecturas R1 y R2.
Compare los valores calculados en el punto 1 con lo entregado en el informe de calidad obtenido con FastQC
Seleccione las 4 figuras más importantes a su criterio para analizar la calidad de la corrida, cópielas a un archivo Word y agregue su interpretación de cada figura. Recuerde hacer la comparación de R1 y R2 para las secuencias crudas y las secuencias podadas.
** Forma de entrega: Google classroom **