# Tests de Hipótesis en Regresión Simple

Con MCO obtenemos un estimador $\hat{\beta}_1$ a partir de nuestra muestra. Pero cada muestra es diferente — una extracción distinta de la población arrojaría un estimador diferente. ¿Cómo podemos saber si el valor que observamos refleja un efecto poblacional genuino, o si podría haberse producido por azar incluso si el verdadero efecto fuera cero?

Esta es la pregunta central de los **tests de hipótesis**. En esta sección desarrollamos las herramientas para responderla: la distribución de $\hat{\beta}_1$, el estadístico T, la lógica del test y el p-valor.

**Ejemplo motivador.** Un equipo de marketing analizó 200 campañas publicitarias independientes, registrando el presupuesto invertido y los ingresos generados. Estimaron una regresión y obtuvieron $\hat{\beta}_1 = 0{,}08$: por cada mil dólares adicionales de inversión publicitaria, los ingresos suben en promedio 80 dólares. ¿Refleja esto un efecto genuino de la publicidad, o podría haberse producido por azar incluso si la publicidad no tuviera ningún efecto real? Responder esta pregunta requiere conocer la distribución de $\hat{\beta}_1$ bajo la hipótesis de que el efecto verdadero es cero.

---

## 1. Por Qué Necesitamos Más que la Media y la Varianza

De la [sección anterior](3_statistical_properties.md), sabemos dos cosas sobre el estimador MCO:

$$E[\hat{\beta}_1] = \beta_1, \qquad \text{Var}(\hat{\beta}_1 \mid X) = \frac{\sigma^2}{SST_x}$$

Estos resultados nos dicen que el estimador es insesgado y nos dan una medida de su dispersión. Pero para hacer afirmaciones probabilísticas — por ejemplo, "¿qué tan probable es observar $\hat{\beta}_1 = 0{,}08$ si el verdadero $\beta_1$ fuera cero?" — necesitamos conocer la *distribución completa* de $\hat{\beta}_1$, no solo sus primeros dos momentos.

En la práctica econométrica, existen tres caminos principales para obtener esa distribución:

1. **Supuesto de normalidad sobre $\varepsilon$:** Si los errores se distribuyen normalmente, entonces $\hat{\beta}_1$ es exactamente normal para cualquier tamaño de muestra $n$. Este es el enfoque que desarrollamos en las Secciones 2 y 3.
2. **Teoría asintótica:** A medida que $n \to \infty$, el Teorema Central del Límite garantiza normalidad aproximada de $\hat{\beta}_1$ independientemente de la distribución del error. Retomamos esto en la Sección 5.
3. **Bootstrap:** Se remuestrean los datos repetidamente para construir una distribución empírica de $\hat{\beta}_1$ sin ningún supuesto distribucional. Este es un tema para un capítulo posterior.

---

## 2. El Supuesto de Normalidad y la Distribución de $\hat{\beta}_1$

El primer enfoque supone que los errores poblacionales se distribuyen normalmente:

$$\varepsilon_i \mid X \sim N(0, \sigma^2)$$

Dado que $\hat{\beta}_1$ es una combinación lineal de los $\varepsilon_i$ (recordar de la {ref}`prueba de insesgadez <prueba-insesgadez>` que $\hat{\beta}_1 = \beta_1 + \sum c_i \varepsilon_i$ con $c_i = (x_i - \bar{x})/SST_x$), y toda combinación lineal de variables normales independientes es normal, se concluye que:

$$\hat{\beta}_1 \sim N\!\left(\beta_1,\; \frac{\sigma^2}{SST_x}\right)$$

Este es un resultado exacto — vale para cualquier tamaño de muestra, no solo para muestras grandes. Sin embargo, depende enteramente de la normalidad de $\varepsilon$.

---

## 3. La Distribución T y el Estadístico de Prueba

### Del estadístico Z al estadístico T

Si conociéramos $\sigma^2$, podríamos estandarizar $\hat{\beta}_1$ y usar la normal estándar:

$$Z = \frac{\hat{\beta}_1 - \beta_1}{\sqrt{\sigma^2 / SST_x}} \sim N(0, 1)$$

Pero $\sigma^2$ es un parámetro poblacional desconocido. En la práctica lo reemplazamos por el estimado $\hat{\sigma}^2$ obtenido a partir de los residuos (ver la {ref}`sección de estimación de la varianza <estimacion-varianza>`):

$$\hat{\sigma}^2 = \frac{\sum_{i=1}^n \hat{\varepsilon}_i^2}{n-2}, \qquad SE(\hat{\beta}_1) = \sqrt{\frac{\hat{\sigma}^2}{SST_x}}$$

Al sustituir el error estándar estimado, el estadístico estandarizado ya no sigue una distribución normal — sigue una **distribución T de Student**:

$$T = \frac{\hat{\beta}_1 - \beta_1}{SE(\hat{\beta}_1)} \sim t_{n-2}$$

La derivación formal de este resultado se encuentra en el [apéndice](#prueba-distribucion-t).

### ¿Por qué $n - 2$ grados de libertad?

MCO estima dos parámetros — $\hat{\beta}_0$ y $\hat{\beta}_1$ — lo que impone dos restricciones lineales sobre los residuos. El vector de residuos queda entonces confinado a un subespacio de dimensión $n-2$, dejando $n-2$ piezas de información libres para estimar $\sigma^2$. Por eso dividimos por $n-2$ en $\hat{\sigma}^2$, y por eso la distribución T tiene $n-2$ grados de libertad.

### La distribución T versus la Normal

La distribución T es simétrica y acampanada como la normal estándar, pero con **colas más pesadas**. Este peso adicional en las colas refleja la incertidumbre adicional de tener que estimar $\sigma^2$ en lugar de conocerlo. A medida que crecen los grados de libertad (es decir, a medida que $n$ aumenta), las colas se adelgazan y $t_{n-2} \to N(0,1)$.

---

## 4. La Lógica del Test y el P-Valor

### Planteo del test

Un test de hipótesis parte de una **hipótesis nula** — una afirmación específica sobre el parámetro poblacional que estamos dispuestos a someter a prueba. La hipótesis nula más común en regresión es:

$$H_0: \beta_1 = 0 \quad \text{vs.} \quad H_a: \beta_1 \neq 0$$

Si $H_0$ es verdadera, entonces $X$ no tiene efecto lineal sobre $Y$. También podemos testear otros valores, por ejemplo $H_0: \beta_1 = 1$ cuando el modelo es log-log y queremos verificar una elasticidad unitaria.

Bajo $H_0: \beta_1 = 0$, el estadístico T se simplifica a:

$$\hat{T} = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)} \sim t_{n-2} \quad \text{(bajo } H_0\text{)}$$

### La región de rechazo

La lógica es la siguiente: si $H_0$ es verdadera, valores grandes de $|\hat{T}|$ son poco probables. Rechazamos $H_0$ cuando $|\hat{T}|$ supera un umbral determinado por el **nivel de significancia** $\alpha$ — la probabilidad que estamos dispuestos a tolerar de rechazar $H_0$ cuando en realidad es verdadera.

Para un test de dos colas al $\alpha = 0{,}05$, la región de rechazo es:

$$|\hat{T}| > t_{n-2,\, 0{,}025}$$

Para $n$ grande, el valor crítico $t_{n-2,\, 0{,}025} \approx 1{,}96$.

### El P-Valor

En lugar de solo reportar si superamos o no un umbral fijo, el **p-valor** resume la evidencia que aportan los datos en contra de $H_0$:

$$p\text{-valor} = P\!\left(|T_{n-2}| > |\hat{T}|\right)$$

donde la probabilidad se calcula usando la distribución $t_{n-2}$. Un p-valor pequeño significa que un valor de $|T|$ tan grande como el observado sería poco frecuente si $H_0$ fuera verdadera — esto constituye evidencia en contra de $H_0$. Por convención, un p-valor inferior a 0,05 se denomina estadísticamente significativo al nivel del 5%.

**Lo que el p-valor no es:** no es la probabilidad de que $H_0$ sea verdadera. El p-valor es una afirmación sobre los datos dado $H_0$, no sobre $H_0$ dados los datos.

---

## 5. Significancia Estadística como Señal-Ruido

El estadístico T tiene una interpretación natural como **razón señal-ruido**:

$$\hat{T} = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)} = \frac{\text{señal}}{\text{ruido}}$$

- **Señal** = $\hat{\beta}_1$: la magnitud estimada del efecto.
- **Ruido** = $SE(\hat{\beta}_1) = \hat{\sigma}/\sqrt{SST_x}$: la incertidumbre muestral alrededor de esa estimación.

Un resultado es estadísticamente significativo cuando la señal es grande en relación al ruido. Hay tres formas en que esto puede ocurrir:

1. **El verdadero efecto $\beta_1$ es grande** — una señal más fuerte es más fácil de detectar.
2. **Los residuos del modelo $\hat{\sigma}^2$ son pequeños** — datos limpios implican menos ruido.
3. **$SST_x$ es grande** — una muestra grande o un rango amplio de valores de $X$ aporta más información para identificar la pendiente.

Esta descomposición tiene una implicación práctica importante: **la insignificancia estadística no significa que $\beta_1 = 0$**. Puede significar simplemente que la muestra es demasiado pequeña, o los datos demasiado ruidosos, para distinguir $\beta_1$ de cero con confianza. La pregunta sobre qué tamaño de muestra se necesita para detectar un efecto dado con cierta probabilidad es el tema del análisis de potencia, cubierto en la [sección siguiente](5_power_calculation.md).

---

## 6. Normalidad Asintótica: Las Muestras Grandes Nos Liberan del Supuesto de Normalidad

El resultado $T \sim t_{n-2}$ es **exacto** cuando los errores son normales. ¿Qué ocurre si el supuesto de normalidad no se cumple?

El Teorema Central del Límite proporciona la respuesta. Recordemos que $\hat{\beta}_1 - \beta_1 = \sum c_i \varepsilon_i / SST_x$ es un promedio ponderado de los errores $\varepsilon_i$. Bajo condiciones de regularidad leves — varianza finita y ninguna observación que domine la suma — el TCL aplica y:

$$\frac{\hat{\beta}_1 - \beta_1}{SE(\hat{\beta}_1)} \xrightarrow{d} N(0,1) \quad \text{cuando } n \to \infty$$

Esto tiene dos consecuencias prácticas:

1. Para muestras de tamaño moderado a grande, podemos apoyarnos en la normalidad aproximada de $\hat{T}$ incluso cuando los errores no son normales. Los valores críticos de $t_{n-2}$ convergen a los de la normal estándar (por ejemplo, 1,96 al 5%), que es lo que reporta la mayoría de los programas estadísticos por defecto.
2. El supuesto de normalidad sobre $\varepsilon$ es más relevante en **muestras pequeñas**. Cuando $n$ es pequeño y los errores son visiblemente no normales (e.g., fuertemente asimétricos o con colas muy pesadas), la aproximación por la distribución T puede ser poco confiable, y los métodos bootstrap resultan más atractivos.

Una regla informal común es $n \geq 30$ como mínimo para que la aproximación normal al test T sea razonable, aunque esto depende de cuán no normal sea la distribución del error.

---

## 7. Simulación Interactiva

La siguiente simulación permite explorar el comportamiento del test T bajo distintas condiciones. Se puede variar la distribución del error (normal, asimétrica, colas pesadas), el tamaño de muestra $n$ y el verdadero valor de $\beta_1$. En particular, observe cómo:

- Bajo normalidad, la distribución empírica de $\hat{T}$ sigue de cerca la distribución teórica $t_{n-2}$.
- A medida que $n$ crece, la aproximación funciona incluso cuando los errores no son normales — la distribución de $\hat{T}$ converge a una normal estándar independientemente de la forma del error.
- Un $\beta_1$ verdadero más grande o un $\sigma^2$ más pequeño desplazan la distribución de $\hat{T}$ lejos del cero, facilitando el rechazo de $H_0$.

<div class="dashboard-iframe-wrapper" style="width: 100%; overflow: hidden;">
  <iframe src="https://simuecon.com/ttest/?lang=es" style="width: 100%; min-height: 500px; border: 0; display: block; overflow: hidden;" scrolling="no" allowfullscreen></iframe>
</div>

---

## Apéndice: Demostraciones Formales

(prueba-sigma-hat)=
### A.1 Insesgadez de $\hat{\sigma}^2$

Mostramos que $E[\hat{\sigma}^2] = \sigma^2$, donde $\hat{\sigma}^2 = \sum_{i=1}^n \hat{\varepsilon}_i^2 / (n-2)$, lo que equivale a demostrar que $E\!\left[\sum \hat{\varepsilon}_i^2\right] = (n-2)\sigma^2$.

**Paso 1 — Expresar los residuos en función de los errores poblacionales.**

Los residuos MCO son $\hat{\varepsilon}_i = Y_i - \hat{Y}_i = \varepsilon_i - (\hat{\beta}_0 - \beta_0) - (\hat{\beta}_1 - \beta_1)x_i$. MCO impone dos restricciones lineales exactas sobre los residuos:

$$\sum_{i=1}^n \hat{\varepsilon}_i = 0, \qquad \sum_{i=1}^n x_i \hat{\varepsilon}_i = 0$$

Estas dos restricciones implican que el vector de residuos $\hat{\boldsymbol{\varepsilon}}$ pertenece a un subespacio de dimensión $n-2$ de $\mathbb{R}^n$ — dos dimensiones han sido "consumidas" al proyectar los valores ajustados.

**Paso 2 — Tomar la esperanza de $RSS$.**

Usando la matriz sombrero $\mathbf{H} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'$ (con $\mathbf{X}$ la matriz de diseño de $n \times 2$), escribimos $\hat{\boldsymbol{\varepsilon}} = (\mathbf{I} - \mathbf{H})\boldsymbol{\varepsilon}$. Como $\mathbf{I} - \mathbf{H}$ es una matriz idempotente de rango $n-2$:

$$E\!\left[\sum_{i=1}^n \hat{\varepsilon}_i^2\right] = E[\boldsymbol{\varepsilon}'(\mathbf{I}-\mathbf{H})\boldsymbol{\varepsilon}] = \sigma^2 \operatorname{tr}(\mathbf{I}-\mathbf{H}) = \sigma^2(n-2)$$

**Conclusión:**

$$E[\hat{\sigma}^2] = \frac{E\!\left[\sum \hat{\varepsilon}_i^2\right]}{n-2} = \sigma^2$$

(prueba-distribucion-t)=
### A.2 El Estadístico T Sigue una $t_{n-2}$ Bajo Normalidad

Bajo el supuesto de normalidad $\varepsilon_i \mid X \overset{iid}{\sim} N(0,\sigma^2)$, establecemos tres hechos y los combinamos.

**Hecho 1.** Como $\hat{\beta}_1 = \beta_1 + \sum c_i \varepsilon_i$ es combinación lineal de normales independientes:

$$\hat{\beta}_1 \sim N\!\left(\beta_1,\, \frac{\sigma^2}{SST_x}\right) \implies Z \equiv \frac{\hat{\beta}_1 - \beta_1}{\sqrt{\sigma^2/SST_x}} \sim N(0,1)$$

**Hecho 2.** Bajo normalidad, $(n-2)\hat{\sigma}^2/\sigma^2 \sim \chi^2_{n-2}$. Esto se sigue de que $\hat{\boldsymbol{\varepsilon}} = (\mathbf{I}-\mathbf{H})\boldsymbol{\varepsilon}$ y $(\mathbf{I}-\mathbf{H})$ es una proyección idempotente de rango $n-2$; un resultado de la teoría de la distribución normal (Teorema de Cochran) garantiza la distribución chi-cuadrado.

**Hecho 3.** $\hat{\sigma}^2$ y $\hat{\beta}_1$ son **independientes** bajo normalidad. Esto se debe a que $\hat{\beta}_1$ depende de $\mathbf{H}\boldsymbol{\varepsilon}$ y $\hat{\sigma}^2$ depende de $(\mathbf{I}-\mathbf{H})\boldsymbol{\varepsilon}$; estas son proyecciones ortogonales de un vector normal, y por lo tanto independientes.

**Combinando.** Por la definición de la distribución T (una normal estándar dividida por la raíz cuadrada de una $\chi^2/\nu$ independiente):

$$T = \frac{Z}{\sqrt{(n-2)\hat{\sigma}^2/(\sigma^2(n-2))}} = \frac{\hat{\beta}_1 - \beta_1}{\sqrt{\hat{\sigma}^2/SST_x}} = \frac{\hat{\beta}_1 - \beta_1}{SE(\hat{\beta}_1)} \sim t_{n-2}$$

Imponiendo $\beta_1 = 0$ bajo $H_0$ obtenemos $\hat{T} = \hat{\beta}_1 / SE(\hat{\beta}_1) \sim t_{n-2}$.