Curso de introducción a la bioinformática e investigación reproducible
Mediante una colaboración entre el Posgrado en Ciencias Biológicas de la Universidad Nacional Autónoma de México, CONABIO y la U. de Chile, ofreceremos un curso intensivo de bioinformática, orientado a entregar las herramientas básicas para análisis de datos genómicos en el contexto de genética, especialmente la genética de poblaciones.
INSTRUCTORES:
Dra. Alicia Mastretta Yanes, PhD. Catedrática CONACYT-CONABIO, www.mastrettayanes-lab.org
Dra. Camille Truong, PhD. Investigadora Instituto de Biología, UNAM camilletruong.wixsite.com
Dr. Ricardo Verdugo Salgado, PhD Profesor Asistente, Programa de Genética Humana, ICBM, Facultad de Medicina, Universidad de Chile http://genomed.med.uchile.cl
Dr. Matthieu J. Miossec, PhD Bioinformatics Analyst, Wellcome Centre for Human Genetics de la Universidad de Oxford https://www.researchgate.net/profile/Matthieu-Miossec
Dr. Luis Castañeda, PhD Profesor Asistente, Programa de Genética Humana, ICBM, Facultad de Medicina, Universidad de Chile https://sites.google.com/site/lecastane/
Dr. Pablo Saenz Agudelo Profesor Asociado, Instituto de Ciencias Ambientales y Evolutivas, Facultad de Ciencias, Universidad Austral de Chile http://icaev.cl/academicos/pablo-saenz-agudelo/
Los materiales aquí presentados son de acceso libre. La transmisión online y videos de clases se pueden encontrar en este canal de Youtube
Sala de chat para anuncios de la clase y dudas si lo estás viendo remotamente: en Gitter
El objetivo general es brindar a los y las alumnas las herramientas computacionales de software libre, mejores prácticas y metodologías de reproducibilidad de la ciencia para efectuar, documentar y publicar proyectos bioinformáticos de análisis genómicos.
Los objetivos particulares son:
En otras palabras en este curso no te vamos a decir qué programa utilizar ni discutir a profundidad métodos de ensamblado etc. Para eso hay cursos especializados intensivos de un par de días que asumen ya sabes usar chido la terminal.
Algunos ejemplos:
Ocuparemos Google Classroom para enviar tareas y hacer anuncios del curso. Debes recibir una invitación a tu correo.
El curso es teórico-práctico, por lo que se requiere traigan su laptop con Mac o GNU/Linux (no Windows, sorry, lo intenté 2 años y es una pesadilla para todxs) y:
Docker instalado y FUNCIONANDO (ocuparemos Docker dentro de un mes)
¿Necesito instalar algo más? Sí
Si van a tomar notas, que sean ahí o en un editor de Markdown, nooooo en Word, de veritas de veritas.
También necesitas abrir una cuenta de Github para unirte al
El repositorio está dividido en un folder por Unidad. Dentro de cada folder subiremos los apuntes y código utilizado en cada clase conforme los vayamos viendo en el semestre, así como los enlaces a las tareas.
Las notas de este repositorio están escritas en formato Markdown y, como notarás, el repositorio se encuentra hospedado en GitHub.
Cubriremos ambas herramientas en el curso, pero en resumen:
Markdown es un procesador texto-a-HTML que de forma sencilla permite formatear texto así
. Esto es útil para resaltar los los comandos y los resultados de la terminal del resto del texto en los documentos de clase (y en foros de ayuda).
GitHub es un repositorio web especializado en software (pero se puede subir cualquier texto, como este). La parte de arriba enlista los archivos y carpetas dentro del repositorio. La nota de texto a su derecha es el comentario que yo realicé al subir o modificar (commit) el archivo de mi computadora a GitHub. En la parte de abajo puedes leer el contenido de dichos archivos en formato html. Y si los bajas los verás en formato Markdown.
En este mismo repositorio de github están las versiones de cursos que hemos dado los años pasados. Cada curso está en una “rama” de del repositorio (más adelante veremos qué es esto). Si estás siguiendo este curso en youtube en un año diferente al del curso, quizá sea necesario que cambies la rama para que los videos correspondan con los apuntes.
En la unidad 2 aprenderemos a utilizar github desde la línea de comando, pero por lo pronto, para hacer los ejercicios de la unidad 1: baja el respositorio y guárdalo en tu escritorio. Para bajarlo da click en el botón vere del lado derecho que dice “Clone or Download” y selecciona “Download zip”.
El curso se dividirá en secciones que se calificarán por separado:
Unidades 1-3:
Unidad 4-5:
Unidad 6-8:
100% Tareas. Aproximadamente una tarea por sesión. Todas las tareas tienen el mismo valor.
Proyecto final opcional
Igual que el proyecto de la Unidad 5 pero con:
A) Tus datos propios
o
B) Los datos de alguna tarea de las vistas en unidad 6-9 que se acerquen a lo que trabajarás en tu proyecto.
Los scripts pueden ser muy sencillos por ejemplo: bajar las secuencias, examinarlas con fastqc y hacer una gráfica del número de reads por muestra.
Se calificará:
Para Chile, las unidades 1-4 y 6-8 constituyen dos cursos independientes. La Unidad 5 es opcional.
Para México, todas las unidades son obligatorias.
Copiar o plagiar (tareas, exámenes, trabajo final, lo que sea) es motivo suficiente para reprobarte sin lugar a discusión.
Video de Bienvenida al curso 2020
Video Sesión 1: Introducción al código y la terminal
Video Sesión 2: Introducción a los scripts y grep
Video Sesión 3: Continuación de bash
Video Extra: Volver ejecutable un script
Video Sesión 1: Documentación bioinformática
Video Sesión 1: Introducción a R
Video Sesión 1: Introducción a R-CONTINUACIÓN
Video Sesión 2: Rmrkown y Funciones en R
Video Sesión 3: Manipulación y limpieza de datos en R
Video Sesión 1: Software especializado y servidores remotos
Video Sesión 1: genética de poblaciones con software bioinformático
Video Sesión 2:continuación de genética de poblaciones
Se dará seguimiento online al proyecto de las unidades 1-5 con las herramientas de la Unidad 2 y se dejarán tareas para mantener la práctica de las unidades anteriores
Sesión 1 Generación y QC de datos NGS
Sesión 2 Alineamiento de lecturas de secuenciación
Sesión 3 Llamado de variantes
Sesión 1 Expresión diferencial
Sesión 2 Análisis funcional
Sesión 3 RNA-seq
Sesión 1 Metagenómica
Sesión 2 Ensamblaje de representación reducida de genomas
Sesión 1
Sesión 2
Sesión 3