Regresión lineal simple

Contenido

Regresión lineal simple#

Modelo de regresión lineal#

Hasta aquí hemos propuesto caracterizar la relación entre nuestra variable de interés explicativa \(X\) y el resultado \(Y\) a través de una función desconocida F.

\[Y= F(X )\]

La ecuación del modelo de regresión lineal simple no es más que una forma compacta de escribir esa historia.

Un supuesto simplificador para poder estimar la forma de F es suponer que la su forma es lineal.

La escribiremos así:

\[Y= \beta_0 + \beta_1X + \varepsilon \]

Lejos de ser una expresión abstracta, cada término cumple un papel concreto e intuitivo.

Y - Variable explicada#

La letra Y, variable explicada, representa aquello que queremos comprender, describir o anticipar.

Es la variable cuyo comportamiento observamos y tratamos de resumir. Por ejemplo:

el salario de una persona
el consumo de electricidad de un hogar
la nota obtenida en un examen

En el modelo, Y no es un número fijo, sino una variable que cambia entre observaciones.

X - Variable explicativa#

La letra \(X\), variable explicativa, representa la variable con la que asociamos el comportamiento de Y. Puede ser:

años de educación (asociado con el salario)
temperatura (asociado con el consumo electrico)
horas de estudio (asociado con la nota del examen)

Llamaremos regresión simple a la que se limita a una sola variable explicativa. En el próximo capítulo lo extenderemos al modelo con múltiples variables. En este caso, unmodelo reducido nos permitirá entender paso a paso la lógica del modelo.

De acuerdo con lo desarrollado en el capítulo introductorio, \(X\) es una variable aleatoria. Cada observación \((X_i, Y_i)\) es una realización de una distribución conjunta, y el modelo describe cómo la distribución de \(Y\) cambia en función del valor que toma \(X\).

\(\beta_0\) - Intercepto#

El parámetro \(\beta_0\), intercepto, indica el valor promedio de Y cuando X es igual a cero.

Puede pensarse como un punto de partida. En algunos contextos tiene una interpretación clara, como el costo fijo de un servicio. En otros, es simplemente un elemento técnico necesario para que la recta se ubique correctamente. Lo importante no es siempre su significado literal, sino su función: anclar la recta en el plano.

\(\beta_1\) - Pendiente#

El parámetro \(\beta_1\) mide cómo cambia \(Y\) cuando \(X\) aumenta en una unidad, en promedio. Es la formalización de la pregunta que nos interesa: ¿Qué suele pasar con \(Y\) si \(X\) aumenta un poco?

Si \(\beta_1\) es positivo, \(Y\) tiende a aumentar cuando \(X\) aumenta. Si es negativo, ocurre lo contrario. Si es cercano a cero, la asociación es débil o inexistente. Bajo ciertas condiciones adicionales que serán más claras cuando incorporemos un modelo de causalidad, podremos interpretar que \(\beta_1\) no solo mide una asociación sino también el efecto causal de interés.

\(\varepsilon\) - Error#

Si la recta describiera exactamente todas las observaciones, no necesitaríamos econometría. La realidad, sin embargo, es más compleja. El término \(\varepsilon\) recoge todo aquello que afecta a \(Y\) y no está incluido en \(X\):

diferencias individuales
factores no observados
mediciones imperfectas
simple azar

En lugar de ver el error como un fracaso del modelo, conviene entenderlo como un reconocimiento explícito de que el mundo no es determinista.

Supuestos sobre el error#

Para poder estimar los parámetros \(\beta_0\) y \(\beta_1\) e interpretar sus resultados, necesitamos imponer condiciones sobre \(\varepsilon\). El supuesto central es:

\[E[\varepsilon \mid X] = 0\]

Esto significa que, en promedio, el error no depende del valor que tome \(X\): cualquiera sea el nivel de la variable explicativa, el error esperado es cero. Intuitivamente, los factores omitidos en \(\varepsilon\) no deben estar sistemáticamente relacionados con \(X\).

De este supuesto se derivan dos condiciones de momentos:

Condición 1: \(E[\varepsilon] = 0\)

En promedio, el modelo no sobreestima ni subestima a \(Y\) de manera sistemática.

Condición 2: \(E[\varepsilon X] = 0\)

El error y la variable explicativa no están correlacionados.

Estas dos condiciones son las que usaremos para derivar el estimador en la siguiente sección.

Una nota sobre causalidad. La estimación del modelo lineal por sí sola no garantiza una interpretación causal de \(\hat{\beta}_1\). Si existe una variable relevante que afecta a \(Y\) y está correlacionada con \(X\), esa variable queda dentro de \(\varepsilon\), lo que viola la condición \(E[\varepsilon X] = 0\). En ese caso, el estimador captura no solo el efecto de \(X\) sino también la influencia indirecta de la variable omitida. Las condiciones bajo las cuales \(\hat{\beta}_1\) puede interpretarse causalmente se estudiarán en el capítulo sobre sesgo por variable omitida.

Estimación del modelo#

Método de los Momentos#

Disponemos de \(n\) observaciones \((X_1, Y_1), \ldots, (X_n, Y_n)\). La idea del Método de los Momentos (MoM) es reemplazar las esperanzas poblacionales por sus análogos muestrales: los promedios. A partir de las dos condiciones de momentos derivadas del supuesto \(E[\varepsilon \mid X] = 0\), obtenemos un sistema de dos ecuaciones con dos incógnitas.

Condición 1: \(E[\varepsilon] = 0 \Rightarrow E[Y - \beta_0 - \beta_1 X] = 0\)

\[E[Y] = \beta_0 + \beta_1 E[X] \tag{1}\]

Condición 2: \(E[\varepsilon X] = 0 \Rightarrow E[(Y - \beta_0 - \beta_1 X)X] = 0\)

\[E[XY] = \beta_0 E[X] + \beta_1 E[X^2] \tag{2}\]

Restando \(E[X] \times (1)\) de \((2)\):

\[E[XY] - E[X]E[Y] = \beta_1\bigl(E[X^2] - E[X]^2\bigr)\]

\[\text{Cov}(X,Y) = \beta_1 \cdot \text{Var}(X)\]

\[\boxed{\beta_1 = \frac{\text{Cov}(X,Y)}{\text{Var}(X)}}\]

De \((1)\): \(\beta_0 = E[Y] - \beta_1 E[X]\)

Reemplazando las esperanzas poblacionales por sus análogos muestrales obtenemos los estimadores de MoM (que coinciden con los de MCO):

\[\hat{\beta}_1 = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^n (X_i - \bar{X})^2}, \qquad \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}\]

Una segunda intuición: Mínimos Cuadrados Ordinarios (MCO)#

Los mismos estimadores pueden obtenerse desde una perspectiva completamente diferente: minimizando la suma de los errores al cuadrado (RSS, residual sum of squares).

Para cada candidato \((\beta_0, \beta_1)\), la recta genera predicciones \(\hat{Y}_i = \beta_0 + \beta_1 X_i\) y residuos \(\varepsilon_i = Y_i - \hat{Y}_i\). El criterio MCO elige el par que minimiza:

\[RSS = \sum_{i=1}^n \varepsilon_i^2 = \sum_{i=1}^n \left[Y_i - (\beta_0 + \beta_1 X_i)\right]^2\]

Elevar al cuadrado tiene dos efectos intuitivos: elimina los signos (errores positivos y negativos no se cancelan) y penaliza más los errores grandes que los pequeños.

Al minimizar el RSS se obtienen exactamente las mismas fórmulas que derivamos por MoM. Esto no es una coincidencia: bajo el supuesto \(E[\varepsilon \mid X] = 0\), ambas vías llevan al mismo estimador.

Interpretación de los estimadores#

La expresión de \(\hat{\beta}_1\) puede escribirse como:

\[\hat{\beta}_1 = \frac{\widehat{\text{Cov}}(X,Y)}{\widehat{\text{Var}}(X)}\]

Es decir, la pendiente estimada compara cuánto varían \(X\) y \(Y\) juntas con cuánto varía \(X\) por sí sola. Si \(X\) y \(Y\) tienden a moverse en el mismo sentido, el numerador es positivo y la pendiente también lo será. Si no existe asociación sistemática, el numerador es cercano a cero.

La pendiente estimada es, por lo tanto, una medida resumida de cómo se mueven juntas \(X\) y \(Y\).

Una vez determinada la pendiente, el intercepto se elige de manera que la recta pase por el punto promedio de los datos: cuando \(X\) toma su valor medio, la predicción coincide con el valor medio de \(Y\).

Bondad del ajuste#

Hasta ahora, hemos aprendido a trazar la «mejor» relación lineal posible dada la muestra de datos a nuestro alcance. Hemos minimizado las distancias para obtener una recta que, matemáticamente, es la más eficiente. Sin embargo, en econometría, ser «el mejor» no siempre significa ser «suficiente» para explicar un fenómenos. Esto nos lleva a una pregunta fundamental:

¿Cuánto del comportamiento de Y puede explicar nuestro modelo?

Llamaremos bondad de ajuste del modelo, a una medida de qué tanto capturamos del comportamiento de la variable a explicar con el modelo ofrecido.

Evaluar la calidad del ajuste no consiste en verificar si la recta es “correcta” —en ciencias sociales, ninguna recta lo es perfectamente—, sino en cuantificar qué tan informativa resulta. En términos técnicos, estamos descomponiendo al fenómeno en dos partes:

La parte explicada: El movimiento de los datos que nuestra teoría predice con éxito.
El residuo: El misterio, el azar o todos los factores que no incluimos en nuestro modelo.

Notar que en esencia una medida de bondad de ajuste del modelo debe decirnos cuánto de lo que hay para explicar del fenómeno logramos explicar con el modelo. Nuestra estrategia será crear una medida de cuánto hay para explicar basada en la variabilidad de lo que hay para explicar (Y) y de lo explicado.

Suma de cuadrados total (TSS)#

Antes de introducir la recta, nuestra mejor predicción para cualquier observación de \(Y\) es su promedio \(\bar{Y}\). La dispersión de los datos alrededor de ese promedio representa todo lo que «hay para explicar»: es la variabilidad total de \(Y\).

La medimos con la Suma de Cuadrados Total (TSS, por sus siglas en inglés):

\[TSS = \sum_{i=1}^{n} (Y_i - \bar{Y})^2\]

Una TSS grande indica que \(Y\) es muy variable y que el promedio es una descripción pobre de los datos. Una TSS pequeña indica lo contrario. El objetivo del modelo es reducir esa incertidumbre inicial usando la información de \(X\).

Descomposición de la suma de cuadrados#

Para cada observación, al introducir la recta estimada \(\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i\), podemos escribir la identidad algebraica:

\[(Y_i - \bar{Y}) = (\hat{Y}_i - \bar{Y}) + (Y_i - \hat{Y}_i)\]

La desviación total de cada punto respecto al promedio se descompone en dos partes: lo que la recta explica y lo que no.

Al elevar al cuadrado y sumar sobre todas las observaciones obtenemos tres cantidades:

Suma de Cuadrados Total (TSS):

\[TSS = \sum_{i=1}^n (Y_i - \bar{Y})^2\]

La variación total de \(Y\); el punto de partida.

Suma de Cuadrados Explicada (ESS):

\[ESS = \sum_{i=1}^n (\hat{Y}_i - \bar{Y})^2\]

La parte de la variación que el modelo logra capturar.

Suma de Cuadrados Residual (RSS):

\[RSS = \sum_{i=1}^n \varepsilon_i^2 = \sum_{i=1}^n (Y_i - \hat{Y}_i)^2\]

La parte que el modelo no pudo explicar.

La identidad fundamental es que estas tres cantidades se relacionan exactamente así:

\[TSS = ESS + RSS\]

Esta igualdad se cumple siempre que el modelo incluya un intercepto. Se puede demostrar algebraicamente a partir de las propiedades del estimador MCO (ver Apéndice: Demostración de TSS = ESS + RSS).

El Coeficiente de Determinación (\(R^2\))#

A partir de la identidad fundamental surge la medida de ajuste más utilizada en econometría: el \(R^2\) (R-cuadrado). Mide qué proporción de la variación total de \(Y\) es explicada por el modelo:

\[R^2 = \frac{ESS}{TSS} = 1 - \frac{RSS}{TSS}\]

El valor de \(R^2\) siempre oscila entre 0 y 1:

\(R^2 = 0\): El modelo no tiene poder explicativo. La recta es horizontal y la información de \(X\) no aporta nada.
\(R^2 = 1\): Ajuste perfecto; todos los puntos caen exactamente sobre la recta. En ciencias sociales esto es prácticamente imposible y, si ocurre, suele indicar un error de especificación.

Por ejemplo, un \(R^2 = 0.60\) significa que el modelo explica el 60% de la variación muestral de \(Y\); el 40% restante queda en el residuo.

Advertencias sobre el \(R^2\)#

Ajuste no es causalidad. Un \(R^2\) alto indica que \(X\) y \(Y\) se mueven juntas de forma predecible, no que una cause a la otra. Las ventas de helados y los incendios forestales pueden tener un \(R^2\) elevado porque ambas crecen en verano; eso no implica causalidad.
Un \(R^2\) bajo no invalida un modelo. En ciencias sociales, un \(R^2\) de 0.20 o 0.30 puede ser un resultado sólido si el interés está en el efecto marginal \(\hat{\beta}_1\) y este es estadísticamente significativo. El \(R^2\) mide ajuste, no la relevancia de los coeficientes.
El \(R^2\) crece mecánicamente con el rango de \(X\). Si ampliamos el rango de la variable independiente, el \(R^2\) tiende a subir aunque la relación subyacente no haya cambiado.

Apéndice: Demostración de \(TSS = ESS + RSS\)#

Propiedades del estimador MCO#

El estimador MCO se obtiene minimizando \(RSS = \sum_{i=1}^n (Y_i - \beta_0 - \beta_1 X_i)^2\). Las condiciones de primer orden generan dos propiedades algebraicas que son clave para la demostración.

Propiedad 1 (P1): \(\displaystyle\sum_{i=1}^n \hat{\varepsilon}_i = 0\)

Derivando el RSS respecto a \(\beta_0\) e igualando a cero:

\[\frac{\partial\, RSS}{\partial \beta_0} = -2\sum_{i=1}^n \bigl(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i\bigr) = 0 \quad \Longrightarrow \quad \sum_{i=1}^n \hat{\varepsilon}_i = 0\]

En promedio, los residuos son exactamente cero. La recta no sobreestima ni subestima sistemáticamente.

Propiedad 2 (P2): \(\displaystyle\sum_{i=1}^n X_i\,\hat{\varepsilon}_i = 0\)

Derivando el RSS respecto a \(\beta_1\) e igualando a cero:

\[\frac{\partial\, RSS}{\partial \beta_1} = -2\sum_{i=1}^n X_i\bigl(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i\bigr) = 0 \quad \Longrightarrow \quad \sum_{i=1}^n X_i\,\hat{\varepsilon}_i = 0\]

Los residuos son ortogonales a la variable explicativa.

Propiedad 3 (P3, derivada de P1 y P2): \(\displaystyle\sum_{i=1}^n \hat{Y}_i\,\hat{\varepsilon}_i = 0\)

Como \(\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i\), es una combinación lineal de las dos cantidades que ya sabemos que son ortogonales a \(\hat{\varepsilon}_i\):

\[\sum_{i=1}^n \hat{Y}_i\,\hat{\varepsilon}_i = \hat{\beta}_0\underbrace{\sum_{i=1}^n \hat{\varepsilon}_i}_{0\;\text{(P1)}} + \hat{\beta}_1\underbrace{\sum_{i=1}^n X_i\,\hat{\varepsilon}_i}_{0\;\text{(P2)}} = 0\]

Demostración#

Punto de partida. Por definición del residuo, \(\hat{\varepsilon}_i = Y_i - \hat{Y}_i\), de modo que:

\[Y_i - \bar{Y} = (\hat{Y}_i - \bar{Y}) + \hat{\varepsilon}_i\]

Paso 1: elevar al cuadrado y sumar.

\[\sum_{i=1}^n (Y_i - \bar{Y})^2 = \sum_{i=1}^n \bigl[(\hat{Y}_i - \bar{Y}) + \hat{\varepsilon}_i\bigr]^2\]

Expandiendo el cuadrado del binomio:

\[= \underbrace{\sum_{i=1}^n (\hat{Y}_i - \bar{Y})^2}_{ESS} + 2\sum_{i=1}^n (\hat{Y}_i - \bar{Y})\,\hat{\varepsilon}_i + \underbrace{\sum_{i=1}^n \hat{\varepsilon}_i^2}_{RSS}\]

Paso 2: mostrar que el término cruzado es cero.

\[\sum_{i=1}^n (\hat{Y}_i - \bar{Y})\,\hat{\varepsilon}_i = \underbrace{\sum_{i=1}^n \hat{Y}_i\,\hat{\varepsilon}_i}_{0\;\text{(P3)}} - \bar{Y}\underbrace{\sum_{i=1}^n \hat{\varepsilon}_i}_{0\;\text{(P1)}} = 0\]

Paso 3: concluir.

\[TSS = ESS + 2 \cdot 0 + RSS = ESS + RSS \qquad \blacksquare\]

La igualdad \(TSS = ESS + RSS\) descansa enteramente en las propiedades algebraicas del estimador MCO: el hecho de que los residuos sumen cero (P1) y sean ortogonales a los valores ajustados (P3). Ambas propiedades son consecuencia directa de minimizar la suma de cuadrados e incluir un intercepto en el modelo.