# Variables Categóricas e Interacciones

En econometría, las variables explicativas no siempre son continuas. El departamento de un empleado, el tipo de plan contratado por un cliente, el canal por el que llegó una venta: todas estas son categorías, no números. ¿Cómo incorporamos este tipo de información en un modelo de regresión múltiple?

Esta sección presenta tres extensiones naturales del modelo lineal. Primero, el caso más simple: una variable con exactamente dos categorías, que se captura con una **variable dummy** (o indicadora). Segundo, la generalización a cualquier número de categorías, donde aparece un riesgo específico que conviene conocer de antemano. Tercero, las **variables de interacción**, que permiten que el efecto de una variable continua difiera entre grupos. Los tres temas se construyen sobre el mismo ejemplo —el salario de empleados en distintos departamentos de una empresa tecnológica— para que la progresión sea acumulativa.

---

(dummy-variables)=
## 1. Variables Categóricas: El Caso de Dos Grupos

### 1.1 El problema: grupos en una regresión continua

Considere el salario de los empleados de una empresa tecnológica. Los salarios dependen de los años de experiencia, pero también del área en la que trabaja cada persona. Dos empleados con la misma experiencia pueden tener salarios muy distintos si uno trabaja en Ingeniería y el otro en otra área.

Si graficamos salario contra experiencia y coloreamos los puntos según el departamento, veremos dos nubes de puntos separadas verticalmente: la nube de Ingeniería arriba, la del resto abajo. Una única línea de regresión sin distinguir departamentos pasará entre las dos nubes sin ajustarse bien a ninguna. Más que un problema cosmético, esto es un problema de especificación: estamos omitiendo una variable relevante —el departamento— que probablemente está correlacionada con la experiencia. La omisión genera el sesgo por variable omitida discutido en la {ref}`sección anterior <ovb>`.

Una alternativa obvia sería estimar dos regresiones separadas: una para los empleados de Ingeniería y otra para el resto. Pero esta solución tiene un costo: al partir la muestra, cada regresión utiliza solo una fracción de los datos, con la consecuente pérdida de precisión en las estimaciones. ¿Existe una forma de distinguir los grupos sin sacrificar observaciones?

### 1.2 La variable dummy

Una **variable dummy** (también llamada variable indicadora o binaria) es una variable que toma el valor 1 si la observación pertenece a una categoría y 0 si pertenece a la otra. Para el ejemplo del departamento:

$$
D_i = \begin{cases} 1 & \text{si el empleado } i \text{ trabaja en Ingeniería} \\ 0 & \text{si el empleado } i \text{ trabaja en otra área} \end{cases}
$$

Una vez definida $D_i$, la incluimos en el modelo exactamente igual que cualquier otro regresor:

$$
\text{Salario}_i = \beta_0 + \beta_1 \cdot \text{Experiencia}_i + \beta_2 \cdot D_i + \varepsilon_i
$$

La estimación se realiza por MCO sin ninguna modificación. Antes de ver por qué esto funciona algebraicamente, exploremos qué ocurre en los datos cuando se incluye la dummy: ¿logra distinguir los dos grupos? ¿cómo afecta a la estimación del coeficiente de experiencia?

### Simulación interactiva

La siguiente simulación genera datos donde el salario verdadero es:

$$
\text{Salario}_i = 50 + 2 \cdot \text{Experiencia}_i + 30 \cdot D_i + \varepsilon_i
$$

Ingeniería tiene un sobresueldo real de 30 (miles de dólares). Podés alternar entre tres modelos: ninguno (solo datos), sin dummy y con dummy.

**Qué observar:**
- Comenzá con el modelo **sin dummy**: la línea única promedia sobre ambas nubes de puntos. ¿Se ajusta bien a los datos de Ingeniería? ¿Y a los del resto?
- Pasá al modelo **con dummy** y observá qué le ocurre a la línea de predicción: ¿cuántas líneas aparecen? ¿Son paralelas? ¿Dónde queda la separación vertical entre ellas en relación al valor de $\hat{\beta}_2$ en la tabla?
- Compará el $R^2$ entre los dos modelos: ¿cuánto mejora el ajuste al incorporar el indicador de departamento?
- Notá cómo cambia la estimación del coeficiente de experiencia al agregar la dummy. En estos datos los ingenieros tienen en promedio más años de experiencia: ¿qué efecto tiene eso sobre $\hat{\beta}_1$ cuando se omite la dummy?

<div class="dashboard-iframe-wrapper" style="width: 100%; overflow: hidden;">
  <iframe src="https://simuecon.com/dummy_variables/?lang=es" style="width: 100%; min-height: 500px; border: 0; display: block; overflow: hidden;" scrolling="no" allowfullscreen></iframe>
</div>

### 1.3 ¿Qué observamos? Dos líneas paralelas

La simulación revela algo que la ecuación del modelo ya contiene, aunque no de manera obvia: incluir una dummy en la regresión genera **dos líneas de predicción distintas**, una para cada grupo. Para ver por qué, escribamos la esperanza condicional del salario para cada grupo por separado.

Para los empleados **fuera de Ingeniería** ($D_i = 0$):

$$
E[\text{Salario}_i \mid \text{Experiencia}_i,\, D_i = 0] = \beta_0 + \beta_1 \cdot \text{Experiencia}_i
$$

Para los empleados de **Ingeniería** ($D_i = 1$):

$$
E[\text{Salario}_i \mid \text{Experiencia}_i,\, D_i = 1] = (\beta_0 + \beta_2) + \beta_1 \cdot \text{Experiencia}_i
$$

El modelo implica dos líneas de regresión **paralelas**: misma pendiente $\beta_1$, interceptos distintos separados exactamente por $\beta_2$. Esto es lo que viste en la simulación: la separación vertical entre las dos líneas coincide con el coeficiente $\hat{\beta}_2$ de la tabla.

**Resultado formal:** bajo el supuesto $E[\varepsilon_i \mid \text{Experiencia}_i, D_i] = 0$, el estimador MCO de $\beta_2$ es insesgado, $E[\hat{\beta}_2] = \beta_2$. Se trata del caso particular de insesgadez en regresión múltiple —ninguna derivación adicional es necesaria.

**Interpretación de $\beta_2$:** es la diferencia esperada de salario entre un empleado de Ingeniería y uno de otra área con **igual experiencia**. Captura el sobresueldo promedio asociado al área de ingeniería una vez que se controla por los años de experiencia. Si $\hat{\beta}_2 = 30$, un ingeniero gana en promedio 30 mil dólares más al año que un empleado con la misma experiencia en otra área.

**Interpretación de $\beta_1$:** el efecto de un año adicional de experiencia sobre el salario, manteniendo constante el departamento. El modelo supone que esta pendiente es la misma en ambos grupos —un supuesto que la sección de interacciones relaja.

La simulación también mostró que omitir la dummy sesga hacia arriba el coeficiente de experiencia cuando los ingenieros tienen en promedio más años de experiencia. Esto no es coincidencia: es el sesgo por variable omitida que ocurre cuando se excluye una variable relevante correlacionada con los regresores —y que el modelo con dummy corrige utilizando todas las observaciones en una única estimación.

```{note}
¿Por qué no codificar el departamento con 1 para Ingeniería y 2 para otra área? Esa codificación impondría que la distancia entre "otra área" e Ingeniería sea exactamente la misma que la distancia entre "ningún área" y "otra área", lo cual carece de sentido. La codificación 0/1 evita esa restricción arbitraria: solo establece que los dos grupos son distintos, sin asumir ninguna métrica entre categorías.
```

**Ejemplo alternativo — SaaS B2B.** Una empresa de software quiere estimar el efecto de las sesiones de uso mensual sobre el ingreso por cliente. Sospecha que los clientes con contrato anual gastan más por sesión que los de mes a mes, independientemente del volumen de uso. Define $D_i = 1$ si el contrato es anual y $D_i = 0$ si es mensual. El modelo $\text{Ingreso}_i = \beta_0 + \beta_1 \cdot \text{Sesiones}_i + \beta_2 \cdot D_i + \varepsilon_i$ estima el ingreso incremental por sesión ($\beta_1$) y el premium del contrato anual controlando por nivel de uso ($\beta_2$). Sin la dummy, el premium quedaría absorbido en el intercepto y el coeficiente de sesiones estaría sesgado si los clientes anuales también usan más el producto.

---

(multiple-categories)=
## 2. Variables Categóricas con Múltiples Categorías

### 2.1 De dos grupos a k grupos

Supongamos ahora que la empresa tecnológica tiene tres departamentos —Ingeniería (Eng), Ventas (Sales) y Marketing (Mkt)— con niveles de salario sistemáticamente distintos. ¿Cómo extendemos el modelo?

Una idea tentadora sería asignar números: Eng = 1, Sales = 2, Mkt = 3. Pero esto impondría una ordenación arbitraria y asumiría que el salto de Eng a Sales es idéntico al salto de Sales a Mkt, lo cual casi nunca es cierto. La solución correcta es construir una **variable dummy para cada categoría**. Con tres departamentos:

$$
D_{\text{Eng},i} = \mathbf{1}[\text{empleado } i \text{ en Ingeniería}], \qquad D_{\text{Sales},i} = \mathbf{1}[\cdots \text{Ventas}], \qquad D_{\text{Mkt},i} = \mathbf{1}[\cdots \text{Marketing}]
$$

Cada dummy es un indicador de pertenencia a esa categoría. El paso siguiente —incluir todas al mismo tiempo— revela un problema que conviene descubrir antes de formalizarlo.

### 2.2 La trampa de las variables dummy

Si intentamos incluir las tres dummies simultáneamente:

$$
\text{Salario}_i = \beta_0 + \beta_1 \text{Experiencia}_i + \beta_2 D_{\text{Eng},i} + \beta_3 D_{\text{Sales},i} + \beta_4 D_{\text{Mkt},i} + \varepsilon_i
$$

el modelo es inestimable. La razón es algebraica: para toda observación $i$,

$$
D_{\text{Eng},i} + D_{\text{Sales},i} + D_{\text{Mkt},i} = 1
$$

porque cada empleado pertenece a exactamente uno de los tres departamentos. Pero esa suma de unos ya está en el modelo: es la columna del intercepto $\beta_0$. Hemos creado una combinación lineal exacta entre los regresores —la forma más severa de {ref}`multicolinealidad <multicolinealidad>`—. La matriz $X'X$ es singular y no tiene inversa; el estimador MCO no existe.

Esta situación se conoce como la **trampa de las variables dummy**. La solución es omitir una de las categorías. Antes de formalizarla, usemos la simulación para ver qué sucede cuando se incluyen las $k$ dummies completas —y qué cambia cuando elegimos distintas categorías de referencia.

### Simulación interactiva

La siguiente simulación genera datos con tres departamentos donde el salario verdadero satisface:

$$
\text{Salario}_i = \alpha_{\text{depto}} + 2 \cdot \text{Experiencia}_i + \varepsilon_i, \qquad \alpha_{\text{Eng}} = 80,\; \alpha_{\text{Sales}} = 50,\; \alpha_{\text{Mkt}} = 20
$$

Podés elegir entre modelos con una, dos o las tres dummies.

**Qué observar:**
- Comenzá con el modelo con **las tres dummies** e identificá el mensaje de advertencia por rango deficiente. El estimador MCO directamente no existe.
- Pasá al modelo con **dos dummies** y cambiá cuál categoría es la referencia. ¿Cambian los valores de los coeficientes? ¿Cambia el $R^2$ o el ajuste visual de las líneas?
- Verificá que, con dos dummies, las tres líneas paralelas siempre pasan por los mismos lugares sin importar cuál es la referencia: lo que cambia es solo la interpretación de los coeficientes, no las predicciones.
- Con **una sola dummy** (por ejemplo, solo $D_{\text{Eng}}$): Ventas y Marketing quedan agrupados en la misma línea. ¿Qué tan mal ajusta esa línea los datos de cada grupo por separado?

<div class="dashboard-iframe-wrapper" style="width: 100%; overflow: hidden;">
  <iframe src="https://simuecon.com/multiple_categories/?lang=es" style="width: 100%; min-height: 500px; border: 0; display: block; overflow: hidden;" scrolling="no" allowfullscreen></iframe>
</div>

### 2.3 La categoría de referencia

La simulación confirmó un resultado importante: la calidad del ajuste —el $R^2$, el MSE, el salario predicho para cada empleado— no cambia al elegir distintas categorías de referencia. Lo que cambia son los coeficientes, porque cada uno mide una diferencia respecto al grupo omitido. La categoría omitida se llama **categoría de referencia** (o **grupo base**).

Con tres departamentos y Marketing como categoría de referencia:

$$
\text{Salario}_i = \beta_0 + \beta_1 \text{Experiencia}_i + \beta_2 D_{\text{Eng},i} + \beta_3 D_{\text{Sales},i} + \varepsilon_i
$$

Las tres líneas implícitas del modelo son:

| Departamento | Intercepto | Pendiente |
|---|---|---|
| Marketing (referencia) | $\beta_0$ | $\beta_1$ |
| Ingeniería | $\beta_0 + \beta_2$ | $\beta_1$ |
| Ventas | $\beta_0 + \beta_3$ | $\beta_1$ |

**Interpretación de los coeficientes:**

- $\beta_0$: salario esperado en Marketing para un empleado con cero años de experiencia. Es el intercepto de la recta del grupo de referencia.
- $\beta_2$: diferencia promedio de salario entre Ingeniería y Marketing, controlando por experiencia. Si $\hat{\beta}_2 = 30$, un ingeniero gana en promedio 30 mil dólares más al año que un empleado de Marketing con la misma experiencia.
- $\beta_3$: diferencia promedio de salario entre Ventas y Marketing, controlando por experiencia.

Todos los coeficientes de las dummies son **comparaciones contra la categoría de referencia**. Para obtener la diferencia directa entre Ingeniería y Ventas hay que calcular $\hat{\beta}_2 - \hat{\beta}_3$ (con el error estándar correspondiente para la inferencia).

**¿Importa qué categoría se omite?** Los coeficientes estimados cambian, pero no la calidad del ajuste ni las predicciones —tal como confirmó la simulación. La convención más habitual es omitir la categoría más frecuente o la que sirve de línea base natural para el análisis.

```{important}
**Regla general:** para una variable categórica con $k$ categorías, incluir exactamente $k - 1$ dummies. Incluir $k$ genera la trampa. Incluir menos de $k - 1$ agrupa categorías de manera implícita, lo cual puede ser una decisión deliberada (si las categorías agrupadas tienen el mismo efecto) o un error.
```

**Ejemplo alternativo — Suscripciones SaaS.** Una empresa de software quiere modelar el ingreso mensual por cliente en función del uso de la plataforma (sesiones por mes) y el tipo de plan contratado: Enterprise (Ent), Professional (Pro) o Starter (Str). Con Starter como referencia:

$$
\text{Ingreso}_i = \beta_0 + \beta_1 \cdot \text{Sesiones}_i + \beta_2 D_{\text{Ent},i} + \beta_3 D_{\text{Pro},i} + \varepsilon_i
$$

El coeficiente $\hat{\beta}_2$ captura el ingreso adicional del plan Enterprise respecto al Starter, **controlando por el nivel de uso**. Esto es importante: si los clientes Enterprise también usan más la plataforma, una regresión sin el control de sesiones mezclaría dos efectos distintos —el valor del plan en sí y el efecto de una mayor actividad. Al incluir las sesiones como regresor, $\hat{\beta}_2$ aísla la diferencia de ingreso atribuible al tipo de plan.

---

(interaction-variables)=
## 3. Variables de Interacción

### 3.1 El supuesto de líneas paralelas y sus límites

Los modelos de las dos secciones anteriores comparten un supuesto implícito: **la pendiente de experiencia es la misma en todos los departamentos**. La dummy desplaza el intercepto pero no altera la pendiente. En el gráfico, las líneas de los distintos grupos son paralelas entre sí.

¿Es este supuesto razonable? Depende del contexto. En Ingeniería, los empleados con más años de experiencia pueden capturar un premium salarial mucho mayor que en otras áreas —porque la experiencia técnica acumulada es escasa y muy valorada por el mercado. Si eso fuera cierto, la pendiente de Ingeniería debería ser mayor que la de Marketing o Ventas, y las líneas ya no serían paralelas.

Antes de formalizar cómo capturar este fenómeno, exploremos primero qué se ve en los datos cuando las pendientes son genuinamente distintas entre grupos, y qué ocurre cuando intentamos ajustar ese patrón con el modelo de líneas paralelas.

### Simulación interactiva

La siguiente simulación genera datos donde el proceso verdadero tiene pendientes distintas por departamento ($\beta_{\text{Eng}} = 3$, $\beta_{\text{resto}} = 1$). Podés alternar entre cuatro modelos: ninguno, agrupado (sin dummy), solo dummy, y modelo completo (dummy + interacción).

**Qué observar:**
- Comenzá con el modelo **agrupado**: una sola línea gris atraviesa ambas nubes sin ajustarse bien a ninguna.
- Con **solo dummy**: las líneas son paralelas. ¿Se ajustan mejor a las nubes de cada grupo? ¿Dónde falla el modelo de líneas paralelas cuando las pendientes verdaderas son distintas?
- Con el **modelo completo** (dummy + interacción): las líneas dejan de ser paralelas. Verificá que $\hat{\beta}_3$ en la tabla coincide aproximadamente con la diferencia de pendientes entre departamentos (debería ser cercano a 2).
- Observá cómo $R^2$ mejora progresivamente: Agrupado → Solo dummy → Modelo completo.

<div class="dashboard-iframe-wrapper" style="width: 100%; overflow: hidden;">
  <iframe src="https://simuecon.com/interaction_terms/?lang=es" style="width: 100%; min-height: 500px; border: 0; display: block; overflow: hidden;" scrolling="no" allowfullscreen></iframe>
</div>

### 3.2 El modelo con interacción

La simulación mostró que cuando las pendientes difieren entre grupos, el modelo de solo dummy produce líneas paralelas que se ajustan mal a los datos. Para capturar diferencias de pendiente necesitamos una **variable de interacción**: el producto de una dummy por una variable continua.

$$
\text{Salario}_i = \beta_0 + \beta_1 \text{Experiencia}_i + \beta_2 D_i + \beta_3 (D_i \times \text{Experiencia}_i) + \varepsilon_i
$$

El término $D_i \times \text{Experiencia}_i$ toma el valor $\text{Experiencia}_i$ cuando el empleado está en Ingeniería ($D_i = 1$) y cero cuando está en otra área ($D_i = 0$). Escribamos las esperanzas condicionales por grupo.

Para empleados **fuera de Ingeniería** ($D_i = 0$):

$$
E[\text{Salario}_i \mid \text{Experiencia}_i,\, D_i = 0] = \beta_0 + \beta_1 \, \text{Experiencia}_i
$$

Para empleados de **Ingeniería** ($D_i = 1$):

$$
E[\text{Salario}_i \mid \text{Experiencia}_i,\, D_i = 1] = (\beta_0 + \beta_2) + (\beta_1 + \beta_3)\, \text{Experiencia}_i
$$

El modelo genera ahora **dos líneas con distinta pendiente** —exactamente lo que viste en la simulación. La pendiente del grupo de referencia es $\beta_1$; la de Ingeniería es $\beta_1 + \beta_3$.

**Interpretación de los coeficientes:**

- $\beta_1$: retorno de un año adicional de experiencia fuera de Ingeniería (grupo de referencia, $D = 0$).
- $\beta_3$: diferencia de pendientes entre Ingeniería y el grupo de referencia. Si $\hat{\beta}_3 > 0$, cada año de experiencia vale más en Ingeniería que en otras áreas. En la simulación, este coeficiente se aproximaba a 2.
- $\beta_2$: diferencia de interceptos evaluada en experiencia = 0 —un punto normalmente fuera del rango real de los datos y, por tanto, difícil de interpretar directamente.

### 3.3 El intercepto fuera de muestra y la variable centrada

La dificultad con $\beta_2$ en el modelo con interacción es que mide la brecha entre los grupos cuando experiencia = 0, un valor sin sentido para empleados activos. Esto no afecta la validez del modelo ni las predicciones, pero hace que el coeficiente de la dummy sea difícil de comunicar.

La solución habitual es **centrar** la variable continua. En lugar de $\text{Experiencia}_i$, usamos $\widetilde{\text{Exp}}_i = \text{Experiencia}_i - \overline{\text{Exp}}$, donde $\overline{\text{Exp}}$ es el promedio muestral de años de experiencia. El modelo queda:

$$
\text{Salario}_i = \beta_0 + \beta_1 \widetilde{\text{Exp}}_i + \beta_2 D_i + \beta_3 (D_i \times \widetilde{\text{Exp}}_i) + \varepsilon_i
$$

Con esta reparametrización, $\beta_2$ mide la brecha salarial entre Ingeniería y el grupo de referencia para un empleado con **experiencia promedio** —una cantidad concreta e interpretable, comparable con el $\beta_2$ del modelo sin interacción. Las pendientes y el resto de la inferencia no cambian.

### 3.4 ¿Cuándo usar el modelo con interacción?

El modelo con interacción agrega un parámetro y es más flexible, pero también más costoso en términos de precisión. La pregunta empírica es si la diferencia de pendientes es estadísticamente significativa. El estadístico $t$ de $\hat{\beta}_3$ responde directamente: si no se puede rechazar $H_0: \beta_3 = 0$, el modelo con líneas paralelas es suficiente.

Una forma alternativa de pensar en el modelo con interacción: produce exactamente los mismos coeficientes que estimar regresiones separadas para cada grupo. Esto implica que el modelo impone **homocedasticidad entre grupos** —la varianza del error es la misma en A y en B. Si ese supuesto parece dudoso, conviene usar errores estándar robustos o estimar directamente por submuestra.

**Ejemplo alternativo — Comercio minorista.** Una cadena tiene dos formatos de tienda: flagships (grandes, en zonas céntricas) y locales estándar. La gerencia quiere saber si cada cliente adicional genera el mismo ingreso en ambos formatos.

$$
\text{Ventas}_i = \beta_0 + \beta_1 \cdot \text{Clientes}_i + \beta_2 D_{\text{flagship},i} + \beta_3 (D_{\text{flagship},i} \times \text{Clientes}_i) + \varepsilon_i
$$

Si $\hat{\beta}_3 > 0$, el ticket promedio es mayor en los flagships: cada cliente que ingresa a un flagship genera más ingreso que uno en un local estándar. El modelo sin interacción habría impuesto el mismo retorno por cliente en ambos formatos, potencialmente distorsionando las proyecciones de ingresos y las decisiones de inversión.

---

## Apéndice: Derivaciones formales

(apendice-categoricas)=

### A.1 La dummy como caso especial del Teorema de Frisch-Waugh-Lovell

Por el Teorema de Frisch-Waugh-Lovell (derivado en el {ref}`apéndice de la sección anterior <prueba-varianza-multiple>`), el estimador $\hat{\beta}_2$ del modelo con dummy es numéricamente igual al coeficiente de la regresión simple de $y$ sobre $\tilde{D}$, donde $\tilde{D}$ son los residuos de la proyección de $D_i$ sobre los demás regresores (en este caso, experiencia y la constante).

Cuando el regresor continuo y la dummy son ortogonales en muestra —es decir, $\overline{\text{Exp}_{\text{Eng}}} = \overline{\text{Exp}_{\text{resto}}}$ (mismo promedio de experiencia en ambos grupos)—, los residuos $\tilde{D}$ coinciden con las desviaciones de $D_i$ respecto a su media, y $\hat{\beta}_2$ se reduce exactamente a la diferencia de medias de $y$ entre los dos grupos:

$$
\hat{\beta}_2 = \bar{y}_{\text{Eng}} - \bar{y}_{\text{resto}} \qquad \text{(solo cuando } \overline{\text{Exp}_{\text{Eng}}} = \overline{\text{Exp}_{\text{resto}}}\text{)}
$$

En el caso general con correlación entre $D$ y experiencia, el resultado anterior no vale: $\hat{\beta}_2$ captura la diferencia de medias **una vez eliminado el efecto de la experiencia** —que es precisamente la ventaja del enfoque de regresión sobre la simple comparación de medias.

### A.2 Rango deficiente con k dummies para k categorías

Sea $\mathbf{1}_n$ el vector de unos de longitud $n$ (la columna del intercepto en la matriz $X$), y $\mathbf{d}_{\text{Eng}}, \mathbf{d}_{\text{Sales}}, \mathbf{d}_{\text{Mkt}} \in \{0,1\}^n$ los vectores de las tres dummies. Por construcción, cada observación pertenece a exactamente un departamento, de modo que:

$$
\mathbf{d}_{\text{Eng}} + \mathbf{d}_{\text{Sales}} + \mathbf{d}_{\text{Mkt}} = \mathbf{1}_n
$$

Esto implica que la columna del intercepto es combinación lineal exacta de las tres columnas de dummies: $\mathbf{1}_n = \mathbf{d}_{\text{Eng}} + \mathbf{d}_{\text{Sales}} + \mathbf{d}_{\text{Mkt}}$. La matriz de datos $X$ —que incluye las cuatro columnas— tiene rango menor que 4:

$$
\text{rank}(X) \leq k = 3 < k + 1 = 4
$$

y $X'X$ no admite inversa. La solución es eliminar cualquiera de las cuatro columnas linealmente dependientes para recuperar el rango completo. En la práctica, se omite una de las dummies, lo que produce la categoría de referencia.

### A.3 Equivalencia entre el modelo con interacción y regresiones separadas por grupo

Consideremos el modelo con interacción:

$$
y_i = \beta_0 + \beta_1 x_i + \beta_2 D_i + \beta_3 (D_i x_i) + \varepsilon_i
$$

**Paso 1 — Condiciones de primer orden para cada subgrupo.**

Para las observaciones con $D_i = 0$ (grupo B), el término de interacción se anula y el modelo es $y_i = \beta_0 + \beta_1 x_i + \varepsilon_i$. Las condiciones MCO restringidas a este subconjunto determinan $\hat{\beta}_0$ y $\hat{\beta}_1$ exactamente como una regresión simple sobre el grupo B.

Para las observaciones con $D_i = 1$ (grupo A), el modelo es $y_i = (\beta_0 + \beta_2) + (\beta_1 + \beta_3) x_i + \varepsilon_i$. Las condiciones MCO restringidas al grupo A determinan $\hat{\beta}_0 + \hat{\beta}_2$ y $\hat{\beta}_1 + \hat{\beta}_3$ como una regresión simple sobre el grupo A.

**Paso 2 — Conclusión.**

Las cuatro condiciones de primer orden del modelo global descomponen en dos sistemas de dos ecuaciones cada uno, independientes entre sí. Las soluciones son idénticas a las que se obtienen estimando dos regresiones separadas, una por grupo. La diferencia es que el modelo global impone $\text{Var}(\varepsilon_i \mid X) = \sigma^2$ (homocedasticidad entre grupos), mientras que las regresiones separadas permiten varianzas distintas. Si la homocedasticidad entre grupos parece dudosa, se recomienda usar errores estándar robustos en el modelo global o comparar los errores estándar de las dos regresiones independientes.
