REGRESIÓN LINEAL SIMPLE
INTRODUCCIÓN
COEFICIENTE DE CORRELACIÓN
En el análisis estadístico de variables financieras o económicas es frecuente el estudio de la relación entre dos o más
variables, y se define entonces el análisis de correlación, como una herramienta básica para medir cómo dos variables
se relacionan entre sí.
Por ejemplo,
• Es posible que se quiera saber si los rendimientos de diferentes índices bursátiles están relacionados y, de ser así,
de qué manera.
• Se necesita darle respuesta a la hipótesis de que el diferencial entre el rendimiento del capital invertido de una
empresa y su costo de capital ayuda a explicar el valor de la empresa en el mercado.
GRÁFICO DE DISPERSIÓN
Un diagrama de dispersión es un gráfico, en dos dimensiones, que muestra la relación entre las observaciones de dos
series de datos. El diagrama de dispersión presenta los valores observados de dos variables, “x” e “y”, donde la
variable “x” es conocida como la variable independiente, variable explicativa, variable predeterminada o variable
exógena, mientras que la variable “y” es conocida como la variable dependiente, variable explicada, variable
respuesta o variable endógena. El diagrama de dispersión permite determinar si existe algún tipo de relación (lineal o
no) entre las variables. En el caso del modelo de MCO se tratará de hallar una relación lineal entre la variable endógena
y las variables exógenas.
Supongamos, por ejemplo, que queremos graficar la relación entre el crecimiento del dinero a largo plazo y la inflación
a largo plazo en seis países industrializados para ver qué tan estrechamente están relacionadas las dos variables. La
tabla adjunta muestra la tasa de crecimiento anual promedio de la oferta monetaria y la tasa de inflación anual
promedio de los últimos 6 años para los seis países.
Tasa de crecimiento Tasa de
País de la oferta monetaria inflación
(%) (%)
1 12.11 4.43
2 4.22 0.22
3 18.43 5.49
4 5.60 2.08
5 13.27 4.31
6 6.57 2.98
Para realizar el gráfico como un diagrama de dispersión, usamos los datos de cada país para marcar un punto en un
gráfico. Para cada punto, la coordenada del eje horizontal es el crecimiento promedio anual de la oferta monetaria del
país, y la coordenada del eje vertical es la tasa de inflación promedio anual del país, como a continuación se muestra
, 6
5
4
INFLACION
3
2
1
0
4 6 8 10 12 14 16 18 20
OFERTA_MONETARIA
Se tiene, en el gráfico, que cada par ordenado de observaciones en el diagrama de dispersión se representa como un
punto y los puntos no están conectados. El gráfico de dispersión no muestra las correspondencias entre cada país y los
pares observados; solo muestra las observaciones reales de ambas series de datos trazadas como pares ordenados. Los
datos trazados en la gráfica muestran una correlación positiva alta. A continuación, examinamos cómo cuantificar esta
relación lineal.
Este capítulo desarrolla en detalle el modelo de mínimos cuadrados ordinarios univariado, es decir, donde la variable
endógena es explicada por una sola variable explicativa.
DEFINICIÓN
El coeficiente de correlación entre dos variables aleatorias X y Y denotado como se define como:
Cov ( X , Y )
=
XY
o de igual manera
E ( X − E ( X ) )(Y − E (Y ) ) E ( XY ) − E ( X ) E (Y )
= =
XY XY
Donde X y Y son respectivamente las desviaciones estándar de X y Y
Es evidente que, si X y Y son variables aleatorias independientes, entonces: = 0 y además −1 1
El coeficiente de correlación se interpreta estableciendo que tan fuerte o débil está la relación lineal entre X y Y de
manera que se hace a modo cualitativo.
Para interpretar el coeficiente de correlación es útil la siguiente escala:
Valor Significado Valor Significado
-1 Correlación negativa perfecta 0,01 a 0,19 Correlación positiva muy baja
-0,9 a -0,99 Correlación negativa muy alta 0,2 a 0,39 Correlación positiva baja
Correlación positiva
-0,7 a -0,89 Correlación negativa alta 0,4 a 0,69
moderada
-0,4 a -0,69 Correlación negativa moderada 0,7 a 0,89 Correlación positiva alta
-0,2 a -0,39 Correlación negativa baja 0,9 a 0,99 Correlación positiva muy alta
, Correlación positiva y
-0,01 a -0,19 Correlación negativa muy baja 1
perfecta
0 Correlación nula
Si se establece entre X y Y una relación lineal como: Y = 0 + 1 X , entonces
0 siempre que 1 0
0 siempre que 1 0
, MODELO DE REGRESIÓN LINEAL SIMPLE
El análisis de regresión es una técnica estadística útil para investigar y modelar la relación entre variables. Existen
numerosas aplicaciones de regresión en casi cualquier campo, como por ejemplo en ingeniería financiera, ciencias
físicas y químicas, economía, administración, entre otras. De hecho, puede ser que el análisis de regresión sea una de
las más usadas técnicas estadísticas.
La regresión lineal con una variable independiente, llamada regresión lineal simple, modela la relación entre dos
variables como una línea recta. Cuando la relación lineal entre las dos variables es estadísticamente significativa, la
regresión lineal proporciona un modelo simple para pronosticar el valor de una variable, conocida como variable
dependiente o regresada, dado el valor de la segunda variable, conocida como variable independiente o regresora.
Es común, en el análisis estadístico de variables establecer la relación entre variables financieras o económicas, o
predecir el valor de una variable utilizando información sobre el valor de otra variable. Por ejemplo, si se quiere
estimar el impacto de los cambios en el rendimiento de los TES a 10 años (Títulos de Tesorería emitidos por el
Ministerio de Hacienda y administrados por el Banco de la República) sobre el rendimiento de las ganancias del
COLCAP (índice de capitalización que refleja las variaciones de los precios de las acciones más líquidas de la Bolsa de
Valores de Colombia).
Si la relación entre estas dos variables es lineal, se puede utilizar la regresión lineal para modelarla. La regresión lineal
simple permite entonces usar los datos conocidos de una variable para hacer predicciones sobre los valores de otra,
hacer pruebas de significancia estadística entre las dos variables y, entre otras pruebas, cuantificar que tan fuerte es la
relación entre las dos variables.
El análisis regresión lineal inicia determinando la variable dependiente o regresada (denotada Y ), la variable que busca
explicar. La variable independiente o regresora (denotada X ), que es la variable que se va a utilizar para explicar los
cambios en la variable dependiente. Por ejemplo, podría intentar explicar los rendimientos de las acciones (la variable
dependiente) basándose en los rendimientos del COLCAP (la variable independiente). O podría intentar explicar la
inflación (la variable dependiente) como una función del crecimiento de la oferta monetaria de un país (la variable
independiente).
El modelo de regresión lineal simple es un modelo con dos variables, por ejemplo, X y Y en donde X es el regresor, Y
es la variable respuesta y la relación entre las variables se supone es una línea recta. De esta forma se puede decir que
la variable Y es una variable dependiente o explicada y la variable X es la variable independiente o explicativa.
También es usual hablar de variable endógena y exógena, respectivamente.
Como ejemplo suponga que X es el precio de un determinado bien a lo largo del tiempo, y Y es la cantidad
demandada del mismo. Suponga que se dispone de n observaciones de la variable Y correspondientes a n
INTRODUCCIÓN
COEFICIENTE DE CORRELACIÓN
En el análisis estadístico de variables financieras o económicas es frecuente el estudio de la relación entre dos o más
variables, y se define entonces el análisis de correlación, como una herramienta básica para medir cómo dos variables
se relacionan entre sí.
Por ejemplo,
• Es posible que se quiera saber si los rendimientos de diferentes índices bursátiles están relacionados y, de ser así,
de qué manera.
• Se necesita darle respuesta a la hipótesis de que el diferencial entre el rendimiento del capital invertido de una
empresa y su costo de capital ayuda a explicar el valor de la empresa en el mercado.
GRÁFICO DE DISPERSIÓN
Un diagrama de dispersión es un gráfico, en dos dimensiones, que muestra la relación entre las observaciones de dos
series de datos. El diagrama de dispersión presenta los valores observados de dos variables, “x” e “y”, donde la
variable “x” es conocida como la variable independiente, variable explicativa, variable predeterminada o variable
exógena, mientras que la variable “y” es conocida como la variable dependiente, variable explicada, variable
respuesta o variable endógena. El diagrama de dispersión permite determinar si existe algún tipo de relación (lineal o
no) entre las variables. En el caso del modelo de MCO se tratará de hallar una relación lineal entre la variable endógena
y las variables exógenas.
Supongamos, por ejemplo, que queremos graficar la relación entre el crecimiento del dinero a largo plazo y la inflación
a largo plazo en seis países industrializados para ver qué tan estrechamente están relacionadas las dos variables. La
tabla adjunta muestra la tasa de crecimiento anual promedio de la oferta monetaria y la tasa de inflación anual
promedio de los últimos 6 años para los seis países.
Tasa de crecimiento Tasa de
País de la oferta monetaria inflación
(%) (%)
1 12.11 4.43
2 4.22 0.22
3 18.43 5.49
4 5.60 2.08
5 13.27 4.31
6 6.57 2.98
Para realizar el gráfico como un diagrama de dispersión, usamos los datos de cada país para marcar un punto en un
gráfico. Para cada punto, la coordenada del eje horizontal es el crecimiento promedio anual de la oferta monetaria del
país, y la coordenada del eje vertical es la tasa de inflación promedio anual del país, como a continuación se muestra
, 6
5
4
INFLACION
3
2
1
0
4 6 8 10 12 14 16 18 20
OFERTA_MONETARIA
Se tiene, en el gráfico, que cada par ordenado de observaciones en el diagrama de dispersión se representa como un
punto y los puntos no están conectados. El gráfico de dispersión no muestra las correspondencias entre cada país y los
pares observados; solo muestra las observaciones reales de ambas series de datos trazadas como pares ordenados. Los
datos trazados en la gráfica muestran una correlación positiva alta. A continuación, examinamos cómo cuantificar esta
relación lineal.
Este capítulo desarrolla en detalle el modelo de mínimos cuadrados ordinarios univariado, es decir, donde la variable
endógena es explicada por una sola variable explicativa.
DEFINICIÓN
El coeficiente de correlación entre dos variables aleatorias X y Y denotado como se define como:
Cov ( X , Y )
=
XY
o de igual manera
E ( X − E ( X ) )(Y − E (Y ) ) E ( XY ) − E ( X ) E (Y )
= =
XY XY
Donde X y Y son respectivamente las desviaciones estándar de X y Y
Es evidente que, si X y Y son variables aleatorias independientes, entonces: = 0 y además −1 1
El coeficiente de correlación se interpreta estableciendo que tan fuerte o débil está la relación lineal entre X y Y de
manera que se hace a modo cualitativo.
Para interpretar el coeficiente de correlación es útil la siguiente escala:
Valor Significado Valor Significado
-1 Correlación negativa perfecta 0,01 a 0,19 Correlación positiva muy baja
-0,9 a -0,99 Correlación negativa muy alta 0,2 a 0,39 Correlación positiva baja
Correlación positiva
-0,7 a -0,89 Correlación negativa alta 0,4 a 0,69
moderada
-0,4 a -0,69 Correlación negativa moderada 0,7 a 0,89 Correlación positiva alta
-0,2 a -0,39 Correlación negativa baja 0,9 a 0,99 Correlación positiva muy alta
, Correlación positiva y
-0,01 a -0,19 Correlación negativa muy baja 1
perfecta
0 Correlación nula
Si se establece entre X y Y una relación lineal como: Y = 0 + 1 X , entonces
0 siempre que 1 0
0 siempre que 1 0
, MODELO DE REGRESIÓN LINEAL SIMPLE
El análisis de regresión es una técnica estadística útil para investigar y modelar la relación entre variables. Existen
numerosas aplicaciones de regresión en casi cualquier campo, como por ejemplo en ingeniería financiera, ciencias
físicas y químicas, economía, administración, entre otras. De hecho, puede ser que el análisis de regresión sea una de
las más usadas técnicas estadísticas.
La regresión lineal con una variable independiente, llamada regresión lineal simple, modela la relación entre dos
variables como una línea recta. Cuando la relación lineal entre las dos variables es estadísticamente significativa, la
regresión lineal proporciona un modelo simple para pronosticar el valor de una variable, conocida como variable
dependiente o regresada, dado el valor de la segunda variable, conocida como variable independiente o regresora.
Es común, en el análisis estadístico de variables establecer la relación entre variables financieras o económicas, o
predecir el valor de una variable utilizando información sobre el valor de otra variable. Por ejemplo, si se quiere
estimar el impacto de los cambios en el rendimiento de los TES a 10 años (Títulos de Tesorería emitidos por el
Ministerio de Hacienda y administrados por el Banco de la República) sobre el rendimiento de las ganancias del
COLCAP (índice de capitalización que refleja las variaciones de los precios de las acciones más líquidas de la Bolsa de
Valores de Colombia).
Si la relación entre estas dos variables es lineal, se puede utilizar la regresión lineal para modelarla. La regresión lineal
simple permite entonces usar los datos conocidos de una variable para hacer predicciones sobre los valores de otra,
hacer pruebas de significancia estadística entre las dos variables y, entre otras pruebas, cuantificar que tan fuerte es la
relación entre las dos variables.
El análisis regresión lineal inicia determinando la variable dependiente o regresada (denotada Y ), la variable que busca
explicar. La variable independiente o regresora (denotada X ), que es la variable que se va a utilizar para explicar los
cambios en la variable dependiente. Por ejemplo, podría intentar explicar los rendimientos de las acciones (la variable
dependiente) basándose en los rendimientos del COLCAP (la variable independiente). O podría intentar explicar la
inflación (la variable dependiente) como una función del crecimiento de la oferta monetaria de un país (la variable
independiente).
El modelo de regresión lineal simple es un modelo con dos variables, por ejemplo, X y Y en donde X es el regresor, Y
es la variable respuesta y la relación entre las variables se supone es una línea recta. De esta forma se puede decir que
la variable Y es una variable dependiente o explicada y la variable X es la variable independiente o explicativa.
También es usual hablar de variable endógena y exógena, respectivamente.
Como ejemplo suponga que X es el precio de un determinado bien a lo largo del tiempo, y Y es la cantidad
demandada del mismo. Suponga que se dispone de n observaciones de la variable Y correspondientes a n