Es una extensión de la regresión lineal simple.
Genera un modelo lineal donde el valor de la variable Y se determina a partir de varias variables X.
Variable dependiente --------------------------- V. respuesta ----------------------- Denominada “Y”
Variable independiente ------------------------- V. explicativa ---------------------- Denominada “X”
Con el modelo, además se puede evaluar la relación que tienen las variables X sobre Y, pero su análisis se hace con
cuidado para no concluir causalidad, a menos que el estudio sea experimental.
** Experimental es cuando el experimentador controla las condiciones que se estudian.
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + 𝛽𝑘 𝑋𝑘 + 𝜀
β₀: Intercepto (valor de Y cuando todos los X = 0).
βk: Coeficientes de regresión parcial.
β explica el cambio de la variable Y, si solo cambia una de las variables X, mientras las demás se mantienen
constantes. A esto se le conoce como efecto aislado/puro.
Es importante que las demás X se mantengan constantes porque si no es así, al haber más de una causa posible para
el cambio en Y, no sabrías si es por X₁, X₂, o por ambos.
ε: Error aleatorio que mide la variabilidad no explicada por el modelo, con µ=0 y ² constante.
Luego se busca estimar los coeficientes β usando los datos de una muestra, para lo cual se utiliza el método de
mínimos cuadrados.
Ŷ = 𝑏0 + 𝑏1 𝑋1 + 𝑏2 𝑋2 + 𝑏3 𝑋3 + 𝑏𝑘 𝑋𝑘
ε no aparece directamente, pero el error sigue existiendo. Este se denomina residuo e = Y- Ŷ , el cual indica la
desviación del valor predicho por el modelo y es además la estimación de ε.
La hipótesis estadística general que se plantea es:
H₀: βk = 0 (Ninguna variable X explica la variación de Y) ------------------- H₁: Al menos un βk ≠ 0 (Algún X influye en Y)
**Al rechazar Ho, entonces se dice que las X explican en forma conjunta la variación de Y.
Esto significa que el conjunto de variables independientes (sin importar cuáles sean significativas individualmente)
están explicando o ayudando a predecir la variabilidad de Y.**
Las hipótesis individuales que se plantean para evaluar la contribución de cada variable X sobre Y son:
Por ejemplo para β₁: H₀: β₁ = 0 ------------------------------------- H₁: β1 ≠ 0 … y así sucesivamente.
**Al NO rechazar Ho, entonces tal variable X no es significativa y se puede eliminar del modelo.
Ya que buscamos trabajar únicamente con las variables significativas, se escoge entre 3 métodos para lograrlo:
1. Forward:
• Inicia con un modelo vacío (sin ninguna variable X).
• La primera variable que se agrega es la más significativa (p-valor más bajo).
, • Se agregan una por una las demás variables mientras sean significativas.
• Se repite hasta que ninguna otra mejore el modelo.
2. Backward:
• Empieza con todas las variables X en el modelo (independientemente sea o no significativa).
• Se elimina la menos significativa (p-valor más alto).
• Se repite hasta que todas las variables restantes sean significativas.
3. Stepwise:
• Combinación de ambos.
• Es el método más usado porque ajusta el modelo dinámicamente hasta que no cambie más.
• Inicia con el modelo vacío.
• Agrega solo una variable significativa y estima el modelo.
• Si alguna variable agregada deja de ser significativa, la elimina.
Se deben cumplir los siguientes supuestos:
1. Hay linealidad entre Y e cada X.
2. Ausencia de multicolinealidad.
Colinealidad: Cuando 2 variables independientes están fuertemente relacionadas entre sí
Multicolinealidad: Cuando 2 o más variables independientes están correlacionadas entre sí.
Esto es un problema porque no se podría distinguir cual variable es la que está afectando a Y, por eso lo ideal es
que cada variable aporte información nueva e independiente sobre Y.
3. El error aleatorio tiene distribución normal con media cero y varianza constante
(homocedasticidad).
4. Evaluar la bondad de ajuste utilizando el coeficiente de determinación (R²), para explicar qué tan
bien el modelo explica la variabilidad de la variable Y.
EJEMPLO #1
En 20 pacientes se busca predecir el nivel de colesterol (mg/100 ml), usando varias variables como:
Edad (años) --- Grasas saturadas consumidas (g/semana) --- Nivel de ejercicio (0 = ninguno, 1 = moderado, 2 =
intenso).
Se elabora una base de datos, solo la variable “nivel de ejercicio” es cualitativa y como tiene 3 valores, se generan 2
variables dummy ya que la categoría “ninguno = 0” queda como grupo control/referencia.
**Realmente las nuevas variables dummy son ejer1, ejer2 y ejer3, pero solo se usan 2 ya que la variable ejer1 está
de manera implícita**
En STATA:
tab ejercicio ----------------------- Para ver el resumen de la variable ejercicio.
tab ejercicio, gen (ejer) ----------------------- Para generar las variables dummy.
list ejercicio ejer1 ejer2 ejer3 ----------------------- Para verificar que se generaron bien.
vif ------------------------ Para el supuesto de ausencia de multicolinealidad.
Se usa el Fator de inflación de la varianza (VIF), valor que se encuentra en la parte que dice “Mean VIF”.