https://bookdown.org/rdpeng/rprogdatascience/
http://www.sthda.com/english/wiki/colors-in-r
SEMANA 1
Clase I
09/08/2022
Introducción
Desarrollo de habilidades conceptuales y metodológicas para comprender y
explicar fenómenos biológicos.
Son tres módulos:
1. Fundamentación
2. Extensión
3. Profundización
Martes y miércoles: Aspectos teóricos y taller preliminar (lo empezamos a trabajar el
miércoles, no se entrega, es un ejercicio de práctica).
Jueves: Taller (Calificable)
Lunes: Entrega del taller (muy puntuales - 5:00 pm)
Calificaciones:
● 44 % - Talleres semanales (12 talleres, individuales)
● 36 % - 3 parciales (12 % cada parcial)
● 20 % - Proyecto final (Grupal)
PROYECTO: Cazadores de mitos
Objetivo: Probar un mito - e.g. El que sube a monserrate con su pareja, no se
casan.
Con base en el mito, debemos proponer unas variables, tomar datos y comprobarlo
con estadística.
Presentación final oral - 20 %
1
,Normas para las entregas:
1. Siempre se deben hacer por Bloque Neón
2. En BN se habilitarán los enlaces para cargar los archivos
3. La extensión de los archivos debe ser PDF, Docx, Pptx, Xlsx.
4. Deadline: Lunes 5:00 pm, si es festivo, martes 5:00 pm
5. Los link de entrega siempre estarán habilitados desde el jueves a las 2:00 pm
6. Las entregas tienen intentos ilimitados y guarda sólo el envío más reciente
7. Si hay entregas en grupo, todos los miembros son responsables de la
entrega.
Miércoles 7 de septiembre PARCIAL I
Traer computador para el examen - Es en R.
Jueves 8 de septiembre - Entrega de la propuesta del proyecto con un posible
modelo. - No tiene clasificación.
Miércoles 12 de octubre PARCIAL II
Traer computador para el examen - Es en R.
Jueves 13 de octubre - Revisión Avance 1 del proyecto: Datos, resultados
preliminares (patrones, gráficas, tendencias).
Miércoles 16 de noviembre PARCIAL III
Traer computador para el examen - Es en R.
Jueves 17 de noviembre: Revisión del proyecto 2.
SEMANA 16: PRESENTACIÓN FINAL DE PROYECTOS
Fundamentos de R
R base y Rstudio es una interfaz
JGR: Interfaz gráfica (Java)
Editores: Sublime, - JGR
Recomendación: Tener la última versión de R
2
, Fundamentos de Biología Cuantitativa
Modelos (aproximaciones) del pensamiento científico:
- Modelo inductivo: Las aproximaciones científicas son construidas sobre
observaciones particulares que producen generalidades. Existen
posibilidades que se desconocen.
- Modelo hipotético - deductivo: Las aproximaciones científicas generan
hipótesis que deben demostrarse a través de confirmación o rechazo.
Clase II
10/08/2022
Fundamentos de Biología Cuantitativa
La predicción es el traductor de la hipótesis y con esta se definen la toma de datos y
las variables.
En la conclusión tenemos una fase hipotético - deductiva para confirmar o rechazar
la tesis.
El enfoque del curso visto desde el punto de vista del método científico es explorar
la fase del muestreo, experimentación, toma y análisis de datos.
¿Cómo tomamos la decisión de confirmar o rechazar una hipótesis?
- La hipótesis es una afirmación para explicar un fenómeno biológico
- Debemos definir una hipótesis estadística
- Hay dos tipos de hipótesis: nula o alterna
- Se hace a través de falseamiento
En la falsabilidad se busca comprobar que la hipótesis es falsa
- Cualquier argumento científico basado en la realidad debe ser falsable
- Se trabaja con realidad parcialmente desconocida o conocida, para generar
elementos para falsear y comprobar su realidad.
- Los datos se basan en:
- La extracción de la muestra
- El tamaño de la muestra
- Representatividad
3
, Un mal muestreo puede llevar a conclusiones erróneas
- De la muestra se toman datos y con los datos se hace una inferencia sobre la
población. La inferencia sobre la población se hace a través de las variables y
su análisis nos lleva a una conclusión.
Razones por las que un muestreo falla:
- Validez externa: Cuando lo que tenemos no representa adecuadamente la
población - e.g. Si la muestra no representa la población, se pueden
presentar sesgos.
- Validez interna: No se miden o toman los datos correctamente - e.g. medir la
altura de un árbol con un termómetro.
Ambos tipos de validez conciernen al investigador
Si el muestreo es bueno y hay buena representatividad, vamos por buen camino
(problemas de validez interna y externa superadas). De lo contrario se llega a
conclusiones erróneas.
● Para la toma de decisiones en estadística:
- Hipótesis nula: Ho - está asociada el desorden - NO HAY PATRÓN
- Hipótesis alterna: Ha - está asociada al orden - HAY PATRÓN
Se dice que la hipótesis alterna es la favorita del investigador porque quiere
encontrar un patrón. Sin perder objetividad.
AD LIBITUM: La aleatoriedad lo da una máquina, cuando lo hace el investigador por
sí mismo y hay decisiones de por medio.
VALOR DE p
Es la probabilidad de que ocurra la hipótesis nula (la probabilidad de que no haya un
patrón - la probabilidad de que el fenómeno sea aleatorio).
- Valores de p:
- 0.99 Poca evidencia contra Ho - Muy probable que sea aleatorio
- 0.10 Baja evidencia contra Ho - Es probable que sea aleatorio
- 0.05 Hay evidencia contra la Ho - Parece que sí hay patrón
- 0.01 Fuerte evidencia contra Ho - Con seguridad hay patrón
- <0.001 Muy fuerte evidencia contra Ho - Con mucha seguridad hay
patrón.
4
, Las probabilidad siempre están entre (0 - 1)
Está en paréntesis porque no se incluye el 0 ni el 1 sino los valores intermedios
NUNCA REPORTAR UN VALOR DE P = 0 Ó P =1
Entre el valor de p se acerque más a 0, hay mayor probabilidad de encontrar un
patrón
¿Por qué p = 0.05?
- Este valor surge como un paradigma con Fisher, indicando que un 5 % es
suficiente para encontrar diferencias.
- Hoy día se considera como un valor referente, pero no se debe tomar como
el único valor a considerar.
- Hay que dar el valor de p exacto, esto da más certeza.
- Cada vez que se reporte un valor de p, reportar sólo con 3 decimales, e.g. p <
0.001, no ponerlo en notación científica ni con todos los decimales, aproximar
con cifras significativas.
Área bajo la curva (AUC) y el valor de p
- La sumatoria del área bajo la curva es igual a 1
- El valor de p surge del área bajo curva en el punto de corte.
- El valor de p es sensible a la cantidad de datos (n) - a mayor cantidad de
datos hay curvas más estables.
- n depende del modelo y experimento, un modelo con muchas variables
requiere de un n alto.
- Un buen n está por encima de 30
- El n sube o baja considerablemente el valor de p
Organización de datos
- Meter los datos en una matriz de dos dimensiones, las variables se ingresan
en las columnas y los objetos o unidades de análisis se ingresan en las filas.
Aproximaciones en investigación científica:
- Descriptiva
- Comparativa: No podemos imponer las condiciones iniciales - aquí se habla
de correlativas.
- Experimental: Se imponen las condiciones iniciales - sólo aquí podemos
hablar de causalidad.
5
, Clase III
11/08/2022
Primer taller en R
Taller de diagnóstico
SEMANA 2
16/08/2022
Unidades de análisis - Replicación y pseudoreplicación
Caso de estudio - Tortuga
- Los niveles de HR determinan el tamaño de las tortugas al eclosionar
- Si colocamos huevos en ambientes húmedo eclosionarán tortugas grandes
- Si colocamos huevos en ambiente seco, eclosionarán tortugas pequeñas
● Variable 1: nivel de humedad en el ambiente
● Variable 2: tamaño de la tortuga
PARA NO LLEGAR A CONCLUSIONES ERRÓNEAS
La replicación ayuda a limitar errores por confusión de efectos.
Si los objetos de estudio están bajo las mismas condiciones no son réplicas, son
pseudoréplicas
Existen efectos “demoníacos”, no se ven y no se pueden controlar
Partiendo de unidades independientes y réplicas se diluyen los efectos externos
NO USAR PSEUDO RÉPLICAS
Entender la unidad de análisis y que sea independiente
Se busca que todas las unidades tengan el mismo grado de independencia
MODELOS
Un modelo es una representación de la realidad usando símbolos
6