# Regresión Múltiple: Interpretación, Propiedades y Especificación

Hasta ahora estudiamos la regresión simple: un modelo donde una sola variable explica el comportamiento de otra. Pero la realidad económica rara vez funciona así. Las ventas de una empresa no dependen solo del presupuesto publicitario; la rentabilidad no responde únicamente a los ingresos; el desempeño de un negocio no se explica con una sola variable. En todos estos casos, querer medir el efecto de una variable ignorando las demás nos expone a un problema fundamental: **¿estamos midiendo lo que creemos medir, o estamos confundiendo efectos?**

La regresión múltiple surge como respuesta a esta pregunta. Su lógica central es sencilla pero poderosa: al incluir varias variables explicativas simultáneamente, el modelo intenta aislar el efecto de cada una **manteniendo constantes las demás**. Esta sección presenta el modelo, sus propiedades estadísticas, y los problemas que aparecen cuando la especificación no refleja correctamente el proceso generador de datos.

---

## 1. El modelo y la interpretación de los coeficientes

El modelo de regresión múltiple extiende la regresión simple al caso de $k$ variables explicativas:

$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k + \varepsilon
$$

donde $x_1, x_2, \ldots, x_k$ son los regresores, $\beta_0, \beta_1, \ldots, \beta_k$ son los parámetros poblacionales, y $\varepsilon$ es el término de error que recoge todo lo que afecta a $y$ pero no está incluido en el modelo.

La diferencia clave respecto de la regresión simple está en la **interpretación de los coeficientes**. Para entenderla, consideremos un ejemplo concreto. Supongamos que una empresa de software B2B quiere explicar sus ventas mensuales ($ventas$, en miles de dólares) en función del gasto en publicidad digital ($publicidad$, en miles de dólares) y el número de vendedores en su equipo comercial ($vendedores$):

$$
ventas = \beta_0 + \beta_1\, publicidad + \beta_2\, vendedores + \varepsilon
$$

En la regresión simple $ventas = \beta_0 + \beta_1\, publicidad + \varepsilon$, el coeficiente $\beta_1$ captura la asociación bruta entre publicidad y ventas. Pero esa asociación puede estar contaminada: las empresas que más invierten en publicidad suelen ser también las que tienen equipos de ventas más grandes. Si en los datos las empresas con mayor gasto publicitario tienden a tener más vendedores, entonces $\beta_1$ del modelo simple estará mezclando el efecto de la publicidad con el efecto del tamaño del equipo comercial.

Al incorporar $vendedores$ en el modelo, el coeficiente $\beta_1$ cambia de significado. Ahora mide el efecto de aumentar el presupuesto publicitario en mil dólares *una vez que ya se tomó en cuenta* el tamaño del equipo de ventas. En la jerga econométrica se dice que $\beta_1$ mide el efecto de la publicidad **controlando por el número de vendedores** o **manteniendo el equipo comercial constante**. La comparación ya no es entre cualquier empresa con mayor o menor publicidad, sino entre empresas con el mismo tamaño de equipo que difieren en su gasto publicitario.

Este cambio es sustancial. Wooldridge lo resume de manera elegante:

> *"The power of multiple regression analysis is that it allows us to do in nonexperimental environments what natural scientists are able to do in a controlled laboratory setting: keep other factors fixed."*

En un laboratorio, un científico puede fijar condiciones y variar un solo factor a la vez. En economía y ciencias sociales rara vez contamos con ese lujo. La regresión múltiple es nuestra forma de aproximar, con datos observacionales, esa capacidad de "mantener todo lo demás constante".

```{note}
Esta idea de *mantener otros factores fijos* no es solo una propiedad estadística conveniente: es uno de los conceptos que resultarán importantes en el estudio de la causalidad en econometría. Cuando más adelante introduzcamos los modelos causales, veremos que una de las preguntas centrales será precisamente si el modelo controla correctamente por las variables relevantes. El lenguaje que estamos construyendo ahora —coeficientes condicionales, efectos parciales, variables omitidas— será una de las herramientas con las que analizaremos esa pregunta.
```

---

## 2. El estimador MCO

En la regresión simple derivamos el estimador por dos caminos equivalentes: el **Método de los Momentos (MoM)** y la **minimización de la suma de cuadrados (MCO)**. Ambos se extienden directamente al caso múltiple.

Desde la perspectiva del MoM, el supuesto $E[\varepsilon \mid x_1, \ldots, x_k] = 0$ genera $k+1$ condiciones de momentos —una por parámetro—: $E[\varepsilon] = 0$ y $E[\varepsilon\, x_j] = 0$ para $j = 1, \ldots, k$. Reemplazando esperanzas por promedios muestrales se obtiene un sistema de $k+1$ ecuaciones con $k+1$ incógnitas, exactamente identificado.

Desde la perspectiva de MCO, el criterio es el mismo de siempre: elegir $\hat{\beta}_0, \hat{\beta}_1, \ldots, \hat{\beta}_k$ que minimicen la suma de los cuadrados de los residuos:

$$
\min_{\beta_0, \ldots, \beta_k} \sum_{i=1}^n \left(y_i - \beta_0 - \beta_1 x_{1i} - \cdots - \beta_k x_{ki}\right)^2
$$

Ambos caminos llevan al mismo estimador. La solución existe y es única siempre que ningún regresor sea combinación lineal exacta de los demás (más sobre esto en la sección 6). A diferencia de la regresión simple, las condiciones de primer orden del problema de minimización no tienen una solución escalar sencilla en el caso general: dan lugar a un sistema de ecuaciones lineales —las *ecuaciones normales*— cuya solución compacta requiere álgebra matricial. Los detalles se recogen en el [apéndice](#derivacion-estimador-multiple).

---

## 3. Propiedades estadísticas vía simulación

Al igual que en la [sección de Regresión Simple](../ch1_regresion_simple/3_statistical_properties.md), exploraremos las propiedades estadísticas del estimador MCO mediante simulación antes de presentar los resultados formales. La lógica es la misma: asumimos que conocemos el **modelo poblacional** verdadero, generamos muchas muestras independientes, estimamos MCO en cada una, y estudiamos la distribución de los estimadores resultantes.

El modelo que vamos a simular es:

$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \varepsilon
$$

con valores poblacionales conocidos para $\beta_0$, $\beta_1$ y $\beta_2$. A diferencia de la regresión simple, ahora el modelo tiene dos regresores y podemos controlar cuatro parámetros: la desviación estándar del error ($\sigma_\varepsilon$), las desviaciones estándar de los regresores ($\sigma_{X_1}$ y $\sigma_{X_2}$), y —novedad clave— la **correlación entre $x_1$ y $x_2$**. Esta última dimensión no existía en el modelo simple y, como veremos, tiene un efecto notable sobre la precisión de los estimadores.

Al explorar la simulación, prestá atención a:

- ¿Los histogramas de $\hat{\beta}_1$ y $\hat{\beta}_2$ están centrados en los valores verdaderos? ¿Cambia eso al variar los parámetros?
- ¿Qué ocurre con la dispersión de las distribuciones al aumentar $\sigma_\varepsilon$?
- ¿Qué pasa cuando aumentás $\sigma_{X_1}$ o $\sigma_{X_2}$? ¿Más variación en los regresores mejora o empeora la precisión?
- **Variá la correlación entre $x_1$ y $x_2$** desde valores bajos hacia 0.9 o más. ¿Qué efecto tiene sobre la distribución de los estimadores?

<div class="dashboard-iframe-wrapper" style="width: 100%; overflow: hidden;">
  <iframe src="https://simuecon.com/multiple_regression/?lang=es" style="width: 100%; min-height: 500px; border: 0; display: block; overflow: hidden;" scrolling="no" allowfullscreen></iframe>
</div>

---

## 4. ¿Qué observamos?

**Insesgadez.** En todas las combinaciones de parámetros, los histogramas de $\hat{\beta}_1$ y $\hat{\beta}_2$ están centrados sobre los valores verdaderos. Esto se mantiene independientemente del nivel de ruido, de la dispersión de los regresores, o de la correlación entre ellos. Las estimaciones individuales se alejan del valor verdadero, pero no sistemáticamente en ninguna dirección.

**Ruido del modelo.** Al aumentar $\sigma_\varepsilon$, ambas distribuciones se ensanchan notablemente. Un modelo con más ruido produce estimaciones más dispersas: aunque siguen siendo insesgadas en promedio, cada estimación individual puede alejarse bastante del valor verdadero. Este comportamiento es idéntico al que observamos en la regresión simple.

**Dispersión de los regresores.** Mayor $\sigma_{X_1}$ estrecha la distribución de $\hat{\beta}_1$, y mayor $\sigma_{X_2}$ estrecha la de $\hat{\beta}_2$. Más variación en un regresor provee más información para identificar su pendiente, reduciendo la incertidumbre sobre ese coeficiente.

**Correlación entre regresores.** Este es el resultado más llamativo del modelo múltiple, sin análogo en la regresión simple. A medida que la correlación entre $x_1$ y $x_2$ crece, las distribuciones de *ambos* estimadores se ensanchan dramáticamente. Con correlación alta las estimaciones pueden dispersarse de manera considerable, aunque el modelo sigue siendo insesgado. Esta sensibilidad a la correlación entre regresores es el núcleo del problema de multicolinealidad, que desarrollamos en la sección 6.

Estos patrones no son coincidencia. La teoría estadística los predice con exactitud, como vemos a continuación.

---

## 5. Resultados formales

### Insesgadez

La simulación mostró que las distribuciones de $\hat{\beta}_1$ y $\hat{\beta}_2$ están centradas en los valores verdaderos, independientemente de los parámetros elegidos. El resultado formal confirma que esto no es una coincidencia: bajo el supuesto $E[\varepsilon \mid x_1, \ldots, x_k] = 0$, los estimadores MCO son exactamente insesgados.

**Resultado formal:**

$$
E[\hat{\beta}_j] = \beta_j \qquad \text{para todo } j = 0, 1, \ldots, k
$$

La demostración se encuentra en el [apéndice](#prueba-insesgadez-multiple).

### Varianza

La simulación también mostró que mayor $\sigma_\varepsilon$ amplía las distribuciones, mayor $\sigma_{X_j}$ las estrecha, y —crucialmente— mayor correlación entre $x_1$ y $x_2$ las ensancha de forma considerable. La fórmula de varianza captura exactamente estos tres efectos. Para el j-ésimo coeficiente:

**Resultado formal:**

$$
\text{Var}(\hat{\beta}_j) = \frac{\sigma^2}{SST_j\,(1 - R_j^2)}
$$

donde $\sigma^2$ es la varianza del error, $SST_j = \sum_{i=1}^n (x_{ij} - \bar{x}_j)^2$ es la variación total del j-ésimo regresor, y $R_j^2$ es el $R^2$ de la regresión auxiliar de $x_j$ sobre **todas las demás variables explicativas del modelo**. La derivación formal se encuentra en el [apéndice](#prueba-varianza-multiple).

Los dos primeros factores son idénticos a los de la regresión simple: mayor $\sigma^2$ aumenta la varianza del estimador; mayor $SST_j$ la reduce. El tercer factor, $(1 - R_j^2)$, es **nuevo respecto de la regresión simple** —no tiene análogo en ese caso porque con un solo regresor no hay "regresión auxiliar". Mide cuánta variación *propia* —no compartida con los demás regresores— tiene $x_j$. Cuando $x_j$ está muy correlacionada con los otros regresores, $R_j^2$ se aproxima a 1, el denominador colapsa hacia cero, y la varianza del estimador se dispara. Esto es exactamente lo que observaste en la simulación al aumentar la correlación entre $x_1$ y $x_2$.

Para tener el cuadro completo: en la regresión simple, $\text{Var}(\hat{\beta}_1) = \sigma^2 / SST_x$. El caso múltiple es una extensión directa con el factor adicional $(1 - R_j^2)$ que penaliza la colinealidad entre regresores.

---

(multicolinealidad)=
## 6. El problema de la multicolinealidad

La **multicolinealidad** describe la situación en que los regresores están altamente correlacionados entre sí. No es un error de especificación en el sentido estricto, sino una característica de los datos que amplifica los problemas de varianza descritos en la sección anterior.

A medida que la correlación entre $x_1$ y $x_2$ crece, el $R_j^2$ de la regresión auxiliar también crece, reduciendo el factor $(1 - R_j^2)$ en el denominador de la fórmula de varianza presentada más arriba. En el límite extremo, cuando $R_j^2 = 1$ —es decir, cuando un regresor es combinación lineal exacta de los demás—, el denominador es exactamente cero: el estimador MCO no está definido. Esto se denomina **multicolinealidad perfecta**.

Un ejemplo de multicolinealidad perfecta: incluir en el mismo modelo los años de experiencia y los meses de experiencia de cada persona. Como los meses son exactamente 12 veces los años, el modelo no puede distinguir el efecto de una variable del de la otra.

Con multicolinealidad imperfecta —correlación alta pero no perfecta— el estimador existe, pero los errores estándar pueden ser muy grandes. Esto produce estadísticos $t$ pequeños y coeficientes que parecen estadísticamente insignificantes, incluso cuando las variables son conjuntamente importantes. Un síntoma clásico: el $F$-test del modelo rechaza la hipótesis nula conjunta, pero ningún coeficiente individual parece significativo.

Dos puntos prácticos importantes:

1. La multicolinealidad **no introduce sesgo** — los coeficientes siguen siendo insesgados. El problema es de precisión, no de exactitud.
2. No se puede resolver simplemente con más observaciones, porque es una característica de la relación entre regresores, no del tamaño de la muestra. Si los regresores están intrínsecamente correlacionados en la población, más datos no cambiará eso.

Para ver este efecto en acción, volvé a la simulación de la sección 3 y llevá la correlación entre $x_1$ y $x_2$ a un valor como 0.95 —un valor arbitrariamente cercano a 1. Observá cómo las distribuciones de los estimadores se dispersan dramáticamente. Este es el límite práctico de la multicolinealidad: no un error, sino un reflejo de que los datos no contienen suficiente variación independiente en cada regresor para identificar sus efectos separados con precisión.

---

## 7. Problemas de especificación

Llamamos **problema de especificación** a cualquier discrepancia entre el modelo que estimamos y el verdadero proceso generador de datos. Esta discrepancia puede surgir de varias fuentes: variables relevantes que omitimos, variables irrelevantes que incluimos, formas funcionales incorrectas, o —como veremos más adelante— la inclusión de variables que introducen nuevos sesgos a pesar de parecer "controles razonables".

Los resultados de las secciones anteriores son válidos bajo el supuesto de que el modelo está correctamente especificado. En la práctica, dos errores son especialmente frecuentes y tienen consecuencias asimétricas: **omitir variables relevantes** genera sesgo; **incluir variables irrelevantes** reduce la precisión sin introducir sesgo —aunque, como veremos, este segundo caso no debe generalizarse sin cuidado.

---

(ovb)=
### 7.a Sesgo por variable omitida

Supongamos que el verdadero modelo poblacional es:

$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \varepsilon
$$

pero, por desconocimiento o falta de datos, estimamos el modelo sin $x_2$:

$$
y = \tilde{\beta}_0 + \tilde{\beta}_1 x_1 + u
$$

donde usamos la tilde para señalar que estamos estimando un modelo distinto del verdadero. ¿Qué podemos decir sobre $\tilde{\beta}_1$?

Se puede demostrar que el valor esperado del estimador omitiendo $x_2$ es:

$$
E[\tilde{\beta}_1] = \beta_1 + \beta_2\, \delta_1
$$

donde $\delta_1$ es la pendiente de la regresión auxiliar de $x_2$ sobre $x_1$, es decir, el coeficiente de $x_1$ en la regresión $x_2 = \delta_0 + \delta_1 x_1 + v$.

El término $\beta_2 \delta_1$ es el **sesgo por variable omitida**. El estimador $\tilde{\beta}_1$ no converge al verdadero $\beta_1$, sino a $\beta_1$ más ese sesgo. La derivación formal de este resultado se encuentra en el [apéndice](#prueba-ovb). Dos condiciones harían desaparecer el sesgo:

1. $\beta_2 = 0$: la variable omitida no tiene efecto en $y$, o sea, no era relevante.
2. $\delta_1 = 0$: la variable omitida no está correlacionada con $x_1$.

En ambos casos no habría problema. El sesgo aparece precisamente cuando la variable omitida es relevante **y** está correlacionada con los regresores incluidos.

La dirección del sesgo es predecible a partir de los signos:

| Signo de $\beta_2$ | Correlación $x_2$-$x_1$ | Sesgo en $\tilde{\beta}_1$ |
|---|---|---|
| Positivo | Positiva | Hacia arriba (sobreestima) |
| Positivo | Negativa | Hacia abajo (subestima) |
| Negativo | Positiva | Hacia abajo (subestima) |
| Negativo | Negativa | Hacia arriba (sobreestima) |

En el ejemplo de ventas, publicidad y vendedores: si las empresas con mayor gasto publicitario tienden también a tener más vendedores ($\delta_1 > 0$) y el tamaño del equipo comercial tiene efecto positivo sobre las ventas ($\beta_2 > 0$), entonces la regresión simple que omite $vendedores$ **sobreestima** el efecto de la publicidad.

La siguiente simulación permite explorar estos efectos: se puede variar la magnitud del efecto de la variable omitida ($\beta_2$) y su correlación con el regresor incluido ($\delta_1$), observando cómo cambia el sesgo en las estimaciones.

**Qué observar en la simulación:**
- Ajustar la correlación entre $x_1$ y $x_2$: ¿cómo cambia el sesgo en el coeficiente estimado de $x_1$?
- Variar el efecto de la variable omitida: cuando $\beta_2 = 0$, ¿desaparece el sesgo?
- Comparar las distribuciones del estimador bajo el modelo correcto vs. el modelo omitido.

<div class="dashboard-iframe-wrapper" style="width: 100%; overflow: hidden;">
  <iframe src="https://simuecon.com/ovb/?lang=es" style="width: 100%; min-height: 500px; border: 0; display: block; overflow: hidden;" scrolling="no" allowfullscreen></iframe>
</div>

---

### 7.b Inclusión de variables irrelevantes

El caso opuesto: ¿qué ocurre si incluimos en el modelo una variable que en realidad no afecta a $y$?

Supongamos que el verdadero modelo es $y = \beta_0 + \beta_1 x_1 + \varepsilon$, pero estimamos:

$$
y = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \hat{\beta}_2 x_2 + \varepsilon
$$

Como el verdadero coeficiente de $x_2$ es cero, el modelo estimado es perfectamente compatible con el verdadero: simplemente estamos estimando un modelo donde $\beta_2 = 0$. Los resultados de insesgadez siguen aplicando —esperamos que $\hat{\beta}_2 \approx 0$ y que $\hat{\beta}_1$ siga siendo insesgado.

**Sin embargo**, hay un costo. Al agregar $x_2$, el $R_1^2$ de la regresión auxiliar de $x_1$ sobre $x_2$ puede ser mayor que cero. Esto reduce el factor $(1 - R_1^2)$ en el denominador de la varianza y, por tanto, **aumenta la varianza de $\hat{\beta}_1$**. Mayor varianza implica mayor error estándar, estadísticos $t$ más pequeños y menor potencia para rechazar hipótesis.

```{important}
Este resultado —que incluir una variable irrelevante no genera sesgo— es válido en el caso particular que acabamos de describir: cuando la variable agregada es genuinamente irrelevante y el modelo simple ya era correcto. **No debe interpretarse como que agregar variables sea, en general, libre de consecuencias.**

Como veremos más adelante en el libro, en contextos causales más complejos la inclusión de ciertas variables *sí puede introducir sesgo*, aunque el modelo parezca más completo. Dos ejemplos importantes:

- **Colisionador** (*collider*): una variable que es causada simultáneamente por $x_1$ y por $y$ (o por factores correlacionados con ellos). Controlar por un colisionador "abre" una asociación espuria entre $x_1$ y $y$ que no existía antes. Por ejemplo, si tanto la habilidad como la suerte afectan si alguien es contratado en una empresa de élite, condicionar en "ser empleado de élite" puede crear una correlación negativa artificial entre habilidad y suerte, incluso si son independientes en la población.

- **Mediador** (*mediator*): una variable que está en la cadena causal entre $x_1$ y $y$. Si parte del efecto de $x_1$ sobre $y$ opera *a través* del mediador, controlar por él bloquea ese canal y subestima el efecto total.

La conclusión práctica es que la decisión de qué variables incluir no puede tomarse solo con criterios estadísticos. Requiere pensar en la estructura causal del problema. Si bien a veces se habla de un *trade-off sesgo-varianza* para describir la tensión entre omitir y agregar variables, esa expresión simplifica demasiado: en la práctica, habrá que pensar cuidadosamente qué variables agregar al modelo para no incurrir en sesgos causados por la propia inclusión. Estas ideas se desarrollarán en detalle cuando abordemos la inferencia causal.
```

---

## Apéndice: Derivaciones formales

(derivacion-estimador-multiple)=
### A.0 Ecuaciones normales y solución del estimador MCO

Minimizar el RSS respecto a cada parámetro genera $k+1$ condiciones de primer orden. Para $\beta_0$:

$$
\frac{\partial\, RSS}{\partial \beta_0} = -2\sum_{i=1}^n \left(y_i - \hat{\beta}_0 - \hat{\beta}_1 x_{1i} - \cdots - \hat{\beta}_k x_{ki}\right) = 0
$$

y para cada $\beta_j$, $j = 1, \ldots, k$:

$$
\frac{\partial\, RSS}{\partial \beta_j} = -2\sum_{i=1}^n x_{ji}\left(y_i - \hat{\beta}_0 - \hat{\beta}_1 x_{1i} - \cdots - \hat{\beta}_k x_{ki}\right) = 0
$$

Estas condiciones son exactamente los análogos muestrales de las condiciones de momentos del MoM: exigen que los residuos sean ortogonales a cada regresor (y al intercepto). En conjunto, forman las **ecuaciones normales**, un sistema lineal de $k+1$ ecuaciones en $k+1$ incógnitas.

En la regresión simple ($k=1$), el sistema tiene solución escalar cerrada. En el caso general, la solución se escribe de forma compacta en notación matricial:

$$
\hat{\boldsymbol{\beta}} = (X'X)^{-1}X'y
$$

donde $X$ es la matriz de datos de dimensión $n \times (k+1)$ (con una columna de unos para el intercepto) e $y$ es el vector de la variable dependiente. La matriz $X'X$ es invertible —y la solución es única— siempre que los regresores no sean linealmente dependientes entre sí, es decir, cuando no hay multicolinealidad perfecta. La derivación matricial completa se desarrollará en una sección posterior dedicada al álgebra del modelo lineal.

---

(prueba-insesgadez-multiple)=
### A.1 Insesgadez de los estimadores MCO

El resultado se extiende directamente del caso simple. Por el Teorema de Frisch-Waugh-Lovell, $\hat{\beta}_j$ puede escribirse como:

$$
\hat{\beta}_j = \beta_j + \frac{\sum_{i=1}^n \tilde{x}_{ij}\, \varepsilon_i}{\sum_{i=1}^n \tilde{x}_{ij}^2}
$$

donde $\tilde{x}_{ij}$ son los residuos de la regresión de $x_j$ sobre los demás regresores. Tomando la esperanza condicional en $X$ y usando $E[\varepsilon_i \mid X] = 0$:

$$
E[\hat{\beta}_j \mid X] = \beta_j + \frac{\sum_{i=1}^n \tilde{x}_{ij}\, \underbrace{E[\varepsilon_i \mid X]}_{=\,0}}{\sum_{i=1}^n \tilde{x}_{ij}^2} = \beta_j
$$

Como este resultado vale para cualquier realización de $X$, se concluye $E[\hat{\beta}_j] = \beta_j$.

---

(prueba-ovb)=
### A.2 Sesgo por variable omitida

El modelo verdadero es $y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \varepsilon$, pero estimamos la regresión simple $y = \tilde{\beta}_0 + \tilde{\beta}_1 x_1 + u$. Queremos encontrar $E[\tilde{\beta}_1]$.

**Paso 1 — Expresión del estimador MCO en la regresión corta.**

$$
\tilde{\beta}_1 = \frac{\sum_{i=1}^n (x_{1i} - \bar{x}_1)(y_i - \bar{y})}{\sum_{i=1}^n (x_{1i} - \bar{x}_1)^2} = \frac{\sum_{i=1}^n (x_{1i} - \bar{x}_1) y_i}{SST_1}
$$

**Paso 2 — Sustituir el modelo verdadero.**

Reemplazamos $y_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + \varepsilon_i$:

$$
\tilde{\beta}_1 = \frac{\sum_{i=1}^n (x_{1i} - \bar{x}_1)(\beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + \varepsilon_i)}{SST_1}
$$

Usando que $\sum_{i=1}^n (x_{1i} - \bar{x}_1) = 0$, el término en $\beta_0$ desaparece, y el término en $\beta_1$ se simplifica a $\beta_1 SST_1$:

$$
\tilde{\beta}_1 = \beta_1 + \beta_2 \frac{\sum_{i=1}^n (x_{1i} - \bar{x}_1) x_{2i}}{SST_1} + \frac{\sum_{i=1}^n (x_{1i} - \bar{x}_1)\varepsilon_i}{SST_1}
$$

**Paso 3 — Identificar $\delta_1$.**

El coeficiente $\delta_1$ de la regresión auxiliar $x_2 = \delta_0 + \delta_1 x_1 + v$ es exactamente:

$$
\delta_1 = \frac{\sum_{i=1}^n (x_{1i} - \bar{x}_1) x_{2i}}{SST_1}
$$

Por lo tanto:

$$
\tilde{\beta}_1 = \beta_1 + \beta_2\, \delta_1 + \frac{\sum_{i=1}^n (x_{1i} - \bar{x}_1)\varepsilon_i}{SST_1}
$$

**Paso 4 — Tomar la esperanza.**

Bajo el supuesto $E[\varepsilon_i \mid x_1, x_2] = 0$, el último término tiene esperanza cero, y obtenemos:

$$
E[\tilde{\beta}_1] = \beta_1 + \beta_2\, \delta_1
$$

El sesgo es $\beta_2 \delta_1$: el producto del efecto verdadero de la variable omitida sobre $y$ y la correlación (lineal) entre la variable omitida y el regresor incluido.

---

(prueba-varianza-multiple)=
### A.3 Varianza de $\hat{\beta}_j$ en regresión múltiple

El resultado clave para derivar la fórmula de la varianza es el **Teorema de Frisch-Waugh-Lovell**, que establece que el coeficiente $\hat{\beta}_j$ en la regresión múltiple coincide con el coeficiente de la regresión simple de $y$ sobre $\tilde{x}_j$, donde $\tilde{x}_j$ son los residuos de la regresión de $x_j$ sobre todas las demás variables explicativas del modelo.

**Paso 1 — Residuos de la regresión auxiliar.**

Definimos $\tilde{x}_{ij}$ como el residuo de la regresión de $x_j$ sobre el resto de regresores:

$$
x_{ij} = \hat{x}_{ij} + \tilde{x}_{ij}
$$

donde $\hat{x}_{ij}$ es la parte explicada por los demás regresores y $\tilde{x}_{ij}$ es la parte no explicada ("variación neta" de $x_j$). El $R^2$ de esta regresión auxiliar es $R_j^2$, y la suma de cuadrados de los residuos es:

$$
\sum_{i=1}^n \tilde{x}_{ij}^2 = SST_j(1 - R_j^2)
$$

ya que $R_j^2 = 1 - \sum \tilde{x}_{ij}^2 / SST_j$.

**Paso 2 — Expresión del estimador.**

Por el Teorema de Frisch-Waugh-Lovell, $\hat{\beta}_j$ puede escribirse como:

$$
\hat{\beta}_j = \frac{\sum_{i=1}^n \tilde{x}_{ij}\, y_i}{\sum_{i=1}^n \tilde{x}_{ij}^2}
$$

Sustituyendo el modelo verdadero $y_i = \mathbf{x}_i'\boldsymbol{\beta} + \varepsilon_i$ y usando que los residuos de la regresión auxiliar son ortogonales a todos los demás regresores (por construcción MCO), los términos en $\beta_l$ para $l \neq j$ desaparecen y obtenemos:

$$
\hat{\beta}_j = \beta_j + \frac{\sum_{i=1}^n \tilde{x}_{ij}\, \varepsilon_i}{\sum_{i=1}^n \tilde{x}_{ij}^2}
$$

**Paso 3 — Varianza condicional en $X$.**

Tomamos la varianza condicional en todas las variables explicativas $X$. Bajo homocedasticidad, $\text{Var}(\varepsilon_i \mid X) = \sigma^2$, y los errores son independientes entre observaciones:

$$
\text{Var}(\hat{\beta}_j \mid X) = \frac{\sum_{i=1}^n \tilde{x}_{ij}^2 \cdot \sigma^2}{\left(\sum_{i=1}^n \tilde{x}_{ij}^2\right)^2} = \frac{\sigma^2}{\sum_{i=1}^n \tilde{x}_{ij}^2}
$$

**Paso 4 — Sustitución.**

Reemplazando $\sum_{i=1}^n \tilde{x}_{ij}^2 = SST_j(1 - R_j^2)$ del Paso 1:

$$
\text{Var}(\hat{\beta}_j \mid X) = \frac{\sigma^2}{SST_j\,(1 - R_j^2)}
$$

Este resultado generaliza directamente la fórmula de la regresión simple: cuando $k = 1$ no hay regresión auxiliar, $R_j^2 = 0$, y la expresión se reduce a $\sigma^2 / SST_x$, que es exactamente la fórmula del caso simple.