Tests de Hipótesis en Regresión Simple

Contenido

Tests de Hipótesis en Regresión Simple#

Con MCO obtenemos un estimador \(\hat{\beta}_1\) a partir de nuestra muestra. Pero cada muestra es diferente — una extracción distinta de la población arrojaría un estimador diferente. ¿Cómo podemos saber si el valor que observamos refleja un efecto poblacional genuino, o si podría haberse producido por azar incluso si el verdadero efecto fuera cero?

Esta es la pregunta central de los tests de hipótesis. En esta sección desarrollamos las herramientas para responderla: la distribución de \(\hat{\beta}_1\), el estadístico T, la lógica del test y el p-valor.

Ejemplo motivador. Un equipo de marketing analizó 200 campañas publicitarias independientes, registrando el presupuesto invertido y los ingresos generados. Estimaron una regresión y obtuvieron \(\hat{\beta}_1 = 0{,}08\): por cada mil dólares adicionales de inversión publicitaria, los ingresos suben en promedio 80 dólares. ¿Refleja esto un efecto genuino de la publicidad, o podría haberse producido por azar incluso si la publicidad no tuviera ningún efecto real? Responder esta pregunta requiere conocer la distribución de \(\hat{\beta}_1\) bajo la hipótesis de que el efecto verdadero es cero.

1. Por Qué Necesitamos Más que la Media y la Varianza#

De la sección anterior, sabemos dos cosas sobre el estimador MCO:

\[E[\hat{\beta}_1] = \beta_1, \qquad \text{Var}(\hat{\beta}_1 \mid X) = \frac{\sigma^2}{SST_x}\]

Estos resultados nos dicen que el estimador es insesgado y nos dan una medida de su dispersión. Pero para hacer afirmaciones probabilísticas — por ejemplo, «¿qué tan probable es observar \(\hat{\beta}_1 = 0{,}08\) si el verdadero \(\beta_1\) fuera cero?» — necesitamos conocer la distribución completa de \(\hat{\beta}_1\), no solo sus primeros dos momentos.

En la práctica econométrica, existen tres caminos principales para obtener esa distribución:

Supuesto de normalidad sobre \(\varepsilon\): Si los errores se distribuyen normalmente, entonces \(\hat{\beta}_1\) es exactamente normal para cualquier tamaño de muestra \(n\). Este es el enfoque que desarrollamos en las Secciones 2 y 3.
Teoría asintótica: A medida que \(n \to \infty\), el Teorema Central del Límite garantiza normalidad aproximada de \(\hat{\beta}_1\) independientemente de la distribución del error. Retomamos esto en la Sección 5.
Bootstrap: Se remuestrean los datos repetidamente para construir una distribución empírica de \(\hat{\beta}_1\) sin ningún supuesto distribucional. Este es un tema para un capítulo posterior.

2. El Supuesto de Normalidad y la Distribución de \(\hat{\beta}_1\)#

El primer enfoque supone que los errores poblacionales se distribuyen normalmente:

\[\varepsilon_i \mid X \sim N(0, \sigma^2)\]

Dado que \(\hat{\beta}_1\) es una combinación lineal de los \(\varepsilon_i\) (recordar de la prueba de insesgadez que \(\hat{\beta}_1 = \beta_1 + \sum c_i \varepsilon_i\) con \(c_i = (x_i - \bar{x})/SST_x\)), y toda combinación lineal de variables normales independientes es normal, se concluye que:

\[\hat{\beta}_1 \sim N\!\left(\beta_1,\; \frac{\sigma^2}{SST_x}\right)\]

Este es un resultado exacto — vale para cualquier tamaño de muestra, no solo para muestras grandes. Sin embargo, depende enteramente de la normalidad de \(\varepsilon\).

3. La Distribución T y el Estadístico de Prueba#

Del estadístico Z al estadístico T#

Si conociéramos \(\sigma^2\), podríamos estandarizar \(\hat{\beta}_1\) y usar la normal estándar:

\[Z = \frac{\hat{\beta}_1 - \beta_1}{\sqrt{\sigma^2 / SST_x}} \sim N(0, 1)\]

Pero \(\sigma^2\) es un parámetro poblacional desconocido. En la práctica lo reemplazamos por el estimado \(\hat{\sigma}^2\) obtenido a partir de los residuos (ver la sección de estimación de la varianza):

\[\hat{\sigma}^2 = \frac{\sum_{i=1}^n \hat{\varepsilon}_i^2}{n-2}, \qquad SE(\hat{\beta}_1) = \sqrt{\frac{\hat{\sigma}^2}{SST_x}}\]

Al sustituir el error estándar estimado, el estadístico estandarizado ya no sigue una distribución normal — sigue una distribución T de Student:

\[T = \frac{\hat{\beta}_1 - \beta_1}{SE(\hat{\beta}_1)} \sim t_{n-2}\]

La derivación formal de este resultado se encuentra en el apéndice.

¿Por qué \(n - 2\) grados de libertad?#

MCO estima dos parámetros — \(\hat{\beta}_0\) y \(\hat{\beta}_1\) — lo que impone dos restricciones lineales sobre los residuos. El vector de residuos queda entonces confinado a un subespacio de dimensión \(n-2\), dejando \(n-2\) piezas de información libres para estimar \(\sigma^2\). Por eso dividimos por \(n-2\) en \(\hat{\sigma}^2\), y por eso la distribución T tiene \(n-2\) grados de libertad.

La distribución T versus la Normal#

La distribución T es simétrica y acampanada como la normal estándar, pero con colas más pesadas. Este peso adicional en las colas refleja la incertidumbre adicional de tener que estimar \(\sigma^2\) en lugar de conocerlo. A medida que crecen los grados de libertad (es decir, a medida que \(n\) aumenta), las colas se adelgazan y \(t_{n-2} \to N(0,1)\).

4. La Lógica del Test y el P-Valor#

Planteo del test#

Un test de hipótesis parte de una hipótesis nula — una afirmación específica sobre el parámetro poblacional que estamos dispuestos a someter a prueba. La hipótesis nula más común en regresión es:

\[H_0: \beta_1 = 0 \quad \text{vs.} \quad H_a: \beta_1 \neq 0\]

Si \(H_0\) es verdadera, entonces \(X\) no tiene efecto lineal sobre \(Y\). También podemos testear otros valores, por ejemplo \(H_0: \beta_1 = 1\) cuando el modelo es log-log y queremos verificar una elasticidad unitaria.

Bajo \(H_0: \beta_1 = 0\), el estadístico T se simplifica a:

\[\hat{T} = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)} \sim t_{n-2} \quad \text{(bajo } H_0\text{)}\]

La región de rechazo#

La lógica es la siguiente: si \(H_0\) es verdadera, valores grandes de \(|\hat{T}|\) son poco probables. Rechazamos \(H_0\) cuando \(|\hat{T}|\) supera un umbral determinado por el nivel de significancia \(\alpha\) — la probabilidad que estamos dispuestos a tolerar de rechazar \(H_0\) cuando en realidad es verdadera.

Para un test de dos colas al \(\alpha = 0{,}05\), la región de rechazo es:

\[|\hat{T}| > t_{n-2,\, 0{,}025}\]

Para \(n\) grande, el valor crítico \(t_{n-2,\, 0{,}025} \approx 1{,}96\).

El P-Valor#

En lugar de solo reportar si superamos o no un umbral fijo, el p-valor resume la evidencia que aportan los datos en contra de \(H_0\):

\[p\text{-valor} = P\!\left(|T_{n-2}| > |\hat{T}|\right)\]

donde la probabilidad se calcula usando la distribución \(t_{n-2}\). Un p-valor pequeño significa que un valor de \(|T|\) tan grande como el observado sería poco frecuente si \(H_0\) fuera verdadera — esto constituye evidencia en contra de \(H_0\). Por convención, un p-valor inferior a 0,05 se denomina estadísticamente significativo al nivel del 5%.

Lo que el p-valor no es: no es la probabilidad de que \(H_0\) sea verdadera. El p-valor es una afirmación sobre los datos dado \(H_0\), no sobre \(H_0\) dados los datos.

5. Significancia Estadística como Señal-Ruido#

El estadístico T tiene una interpretación natural como razón señal-ruido:

\[\hat{T} = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)} = \frac{\text{señal}}{\text{ruido}}\]

Señal = \(\hat{\beta}_1\): la magnitud estimada del efecto.
Ruido = \(SE(\hat{\beta}_1) = \hat{\sigma}/\sqrt{SST_x}\): la incertidumbre muestral alrededor de esa estimación.

Un resultado es estadísticamente significativo cuando la señal es grande en relación al ruido. Hay tres formas en que esto puede ocurrir:

El verdadero efecto \(\beta_1\) es grande — una señal más fuerte es más fácil de detectar.
Los residuos del modelo \(\hat{\sigma}^2\) son pequeños — datos limpios implican menos ruido.
\(SST_x\) es grande — una muestra grande o un rango amplio de valores de \(X\) aporta más información para identificar la pendiente.

Esta descomposición tiene una implicación práctica importante: la insignificancia estadística no significa que \(\beta_1 = 0\). Puede significar simplemente que la muestra es demasiado pequeña, o los datos demasiado ruidosos, para distinguir \(\beta_1\) de cero con confianza. La pregunta sobre qué tamaño de muestra se necesita para detectar un efecto dado con cierta probabilidad es el tema del análisis de potencia, cubierto en la sección siguiente.

6. Normalidad Asintótica: Las Muestras Grandes Nos Liberan del Supuesto de Normalidad#

El resultado \(T \sim t_{n-2}\) es exacto cuando los errores son normales. ¿Qué ocurre si el supuesto de normalidad no se cumple?

El Teorema Central del Límite proporciona la respuesta. Recordemos que \(\hat{\beta}_1 - \beta_1 = \sum c_i \varepsilon_i / SST_x\) es un promedio ponderado de los errores \(\varepsilon_i\). Bajo condiciones de regularidad leves — varianza finita y ninguna observación que domine la suma — el TCL aplica y:

\[\frac{\hat{\beta}_1 - \beta_1}{SE(\hat{\beta}_1)} \xrightarrow{d} N(0,1) \quad \text{cuando } n \to \infty\]

Esto tiene dos consecuencias prácticas:

Para muestras de tamaño moderado a grande, podemos apoyarnos en la normalidad aproximada de \(\hat{T}\) incluso cuando los errores no son normales. Los valores críticos de \(t_{n-2}\) convergen a los de la normal estándar (por ejemplo, 1,96 al 5%), que es lo que reporta la mayoría de los programas estadísticos por defecto.
El supuesto de normalidad sobre \(\varepsilon\) es más relevante en muestras pequeñas. Cuando \(n\) es pequeño y los errores son visiblemente no normales (e.g., fuertemente asimétricos o con colas muy pesadas), la aproximación por la distribución T puede ser poco confiable, y los métodos bootstrap resultan más atractivos.

Una regla informal común es \(n \geq 30\) como mínimo para que la aproximación normal al test T sea razonable, aunque esto depende de cuán no normal sea la distribución del error.

7. Simulación Interactiva#

La siguiente simulación permite explorar el comportamiento del test T bajo distintas condiciones. Se puede variar la distribución del error (normal, asimétrica, colas pesadas), el tamaño de muestra \(n\) y el verdadero valor de \(\beta_1\). En particular, observe cómo:

Bajo normalidad, la distribución empírica de \(\hat{T}\) sigue de cerca la distribución teórica \(t_{n-2}\).
A medida que \(n\) crece, la aproximación funciona incluso cuando los errores no son normales — la distribución de \(\hat{T}\) converge a una normal estándar independientemente de la forma del error.
Un \(\beta_1\) verdadero más grande o un \(\sigma^2\) más pequeño desplazan la distribución de \(\hat{T}\) lejos del cero, facilitando el rechazo de \(H_0\).

Apéndice: Demostraciones Formales#

A.1 Insesgadez de \(\hat{\sigma}^2\)#

Mostramos que \(E[\hat{\sigma}^2] = \sigma^2\), donde \(\hat{\sigma}^2 = \sum_{i=1}^n \hat{\varepsilon}_i^2 / (n-2)\), lo que equivale a demostrar que \(E\!\left[\sum \hat{\varepsilon}_i^2\right] = (n-2)\sigma^2\).

Paso 1 — Expresar los residuos en función de los errores poblacionales.

Los residuos MCO son \(\hat{\varepsilon}_i = Y_i - \hat{Y}_i = \varepsilon_i - (\hat{\beta}_0 - \beta_0) - (\hat{\beta}_1 - \beta_1)x_i\). MCO impone dos restricciones lineales exactas sobre los residuos:

\[\sum_{i=1}^n \hat{\varepsilon}_i = 0, \qquad \sum_{i=1}^n x_i \hat{\varepsilon}_i = 0\]

Estas dos restricciones implican que el vector de residuos \(\hat{\boldsymbol{\varepsilon}}\) pertenece a un subespacio de dimensión \(n-2\) de \(\mathbb{R}^n\) — dos dimensiones han sido «consumidas» al proyectar los valores ajustados.

Paso 2 — Tomar la esperanza de \(RSS\).

Usando la matriz sombrero \(\mathbf{H} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\) (con \(\mathbf{X}\) la matriz de diseño de \(n \times 2\)), escribimos \(\hat{\boldsymbol{\varepsilon}} = (\mathbf{I} - \mathbf{H})\boldsymbol{\varepsilon}\). Como \(\mathbf{I} - \mathbf{H}\) es una matriz idempotente de rango \(n-2\):

\[E\!\left[\sum_{i=1}^n \hat{\varepsilon}_i^2\right] = E[\boldsymbol{\varepsilon}'(\mathbf{I}-\mathbf{H})\boldsymbol{\varepsilon}] = \sigma^2 \operatorname{tr}(\mathbf{I}-\mathbf{H}) = \sigma^2(n-2)\]

Conclusión:

\[E[\hat{\sigma}^2] = \frac{E\!\left[\sum \hat{\varepsilon}_i^2\right]}{n-2} = \sigma^2\]

A.2 El Estadístico T Sigue una \(t_{n-2}\) Bajo Normalidad#

Bajo el supuesto de normalidad \(\varepsilon_i \mid X \overset{iid}{\sim} N(0,\sigma^2)\), establecemos tres hechos y los combinamos.

Hecho 1. Como \(\hat{\beta}_1 = \beta_1 + \sum c_i \varepsilon_i\) es combinación lineal de normales independientes:

\[\hat{\beta}_1 \sim N\!\left(\beta_1,\, \frac{\sigma^2}{SST_x}\right) \implies Z \equiv \frac{\hat{\beta}_1 - \beta_1}{\sqrt{\sigma^2/SST_x}} \sim N(0,1)\]

Hecho 2. Bajo normalidad, \((n-2)\hat{\sigma}^2/\sigma^2 \sim \chi^2_{n-2}\). Esto se sigue de que \(\hat{\boldsymbol{\varepsilon}} = (\mathbf{I}-\mathbf{H})\boldsymbol{\varepsilon}\) y \((\mathbf{I}-\mathbf{H})\) es una proyección idempotente de rango \(n-2\); un resultado de la teoría de la distribución normal (Teorema de Cochran) garantiza la distribución chi-cuadrado.

Hecho 3. \(\hat{\sigma}^2\) y \(\hat{\beta}_1\) son independientes bajo normalidad. Esto se debe a que \(\hat{\beta}_1\) depende de \(\mathbf{H}\boldsymbol{\varepsilon}\) y \(\hat{\sigma}^2\) depende de \((\mathbf{I}-\mathbf{H})\boldsymbol{\varepsilon}\); estas son proyecciones ortogonales de un vector normal, y por lo tanto independientes.

Combinando. Por la definición de la distribución T (una normal estándar dividida por la raíz cuadrada de una \(\chi^2/\nu\) independiente):

\[T = \frac{Z}{\sqrt{(n-2)\hat{\sigma}^2/(\sigma^2(n-2))}} = \frac{\hat{\beta}_1 - \beta_1}{\sqrt{\hat{\sigma}^2/SST_x}} = \frac{\hat{\beta}_1 - \beta_1}{SE(\hat{\beta}_1)} \sim t_{n-2}\]

Imponiendo \(\beta_1 = 0\) bajo \(H_0\) obtenemos \(\hat{T} = \hat{\beta}_1 / SE(\hat{\beta}_1) \sim t_{n-2}\).