# Variables Dependientes Categóricas: Logit y Probit

Considere la siguiente situación: Un equipo de producto en una empresa SaaS quiere predecir qué usuarios van a abandonar el servicio en los próximos 30 días. La variable que les interesa es categórica: el usuario "abandonó" o se "quedó". En base a lo que vimos previamente, el reflejo natural de cualquier econometrista sería transformar esta variable en una variable binaria (1 si "abandonó", y 0 si se "quedó") y correr una regresión. Pero ¿puede MCO predecir probabilidades? ¿Qué pasa cuando la variable dependiente solo toma dos valores?

Esta sección responde esas preguntas. Presentamos el **modelo de regresión logística** (logit) y el **modelo probit** como alternativas a MCO para variables dependientes binarias, exploramos la interpretación de sus coeficientes a través de **efectos marginales**, y extendemos la idea al caso de múltiples categorías con el **logit multinomial**.

---

(binary-objectives)=
## 1. Objetivos

Al terminar esta sección vas a poder:

- Identificar por qué MCO produce estimaciones problemáticas cuando la variable dependiente es binaria, tanto en términos de predicciones fuera del rango $[0,1]$ como de heterocedasticidad estructural en los residuos.
- Entender cómo el modelo logit y el modelo probit resuelven estos problemas mapeando un índice lineal al intervalo $[0,1]$ mediante una función de enlace.
- Interpretar correctamente los coeficientes estimados de un logit o probit, que no representan efectos marginales sino efectos sobre el log-odds o el índice latente.
- Calcular e interpretar efectos marginales: el efecto en el punto $X_0$, el efecto en la media, y el efecto marginal promedio (AME).
- Aplicar el logit multinomial cuando la variable dependiente toma más de dos valores no ordenados.

---

(binary-ols-logit)=
## 2. El problema con MCO y la solución mediante Logit o Probit

MCO puede estimar una relación lineal entre $X$ y $Y$, pero cuando $Y$ solo toma los valores 0 y 1, esa linealidad crea dos problemas inevitables: predicciones fuera del rango $[0,1]$ y heterocedasticidad estructural en los residuos. La simulación de abajo compara MCO, Logit y Probit sobre una muestra de 500 usuarios de una empresa SaaS donde $Y_i = 1$ si el usuario abandonó el servicio y $X_i$ es el promedio de logins por semana.

¿Qué buscar?

- **Con MCO:** fijate en las regiones sombreadas en rojo — son las zonas donde el modelo predice probabilidades menores a 0 o mayores a 1. Estos no son errores de estimación; son fallas estructurales del modelo lineal.
- **El panel de residuos vs. valores ajustados de MCO:** observá el patrón de dos bandas. Los residuos no son aleatorios — tienen estructura. Esto refleja heterocedasticidad intrínseca en un modelo lineal de probabilidad.
- **Logit y Probit:** los residuos son más difusos, sin ese patrón de bandas. La tabla muestra que las predicciones en $X = 2, 5, 10$ son siempre probabilidades válidas.
- **¿Cuándo se parecen Logit y Probit?** Cuando la probabilidad basal es moderada (alrededor del 50%), los tres modelos dan resultados similares en el interior. Las diferencias más grandes aparecen cuando la probabilidad verdadera se acerca a 0 o a 1.

<div style="position: relative; padding-bottom: 56.25%; height: 0; overflow: hidden;">
  <iframe src="https://simuecon.com/binary_outcome/" style="position: absolute; top: 0; left: 0; width: 100%; height: 100%; border: 0;" allowfullscreen></iframe>
</div>

### ¿Qué observamos?

**MCO falla en las colas, no en el centro.** Cuando la probabilidad verdadera es moderada y la muestra es grande, el modelo lineal de probabilidad (MCO) produce estimaciones del coeficiente razonablemente similares a logit y probit. El problema aparece en las predicciones: en cuanto el rango de $X$ es suficientemente amplio, MCO inevitablemente produce predicciones por fuera de $[0,1]$. Además, los residuos tienen una estructura de dos bandas que refleja heterocedasticidad intrínseca — los errores no pueden tener varianza constante cuando $Y$ solo toma los valores 0 y 1.

### Resultado formal

#### El problema con MCO

Cuando la variable dependiente es binaria, $Y_i \in \{0, 1\}$, la esperanza condicional es la probabilidad:

$$E[Y_i | X_i] = P(Y_i = 1 | X_i) = p_i$$

El **modelo lineal de probabilidad** (MLP) especifica directamente $p_i = \beta_0 + \beta_1 X_i$. MCO estima este modelo consistentemente bajo los supuestos usuales, pero tiene dos fallas estructurales inevitables.

**Falla 1 — Predicciones fuera de rango.** Nada impide que $\hat{\beta}_0 + \hat{\beta}_1 X_i$ sea negativo o mayor que 1. Probabilidades negativas o mayores a 1 carecen de significado.

**Falla 2 — Heterocedasticidad estructural.** Como $Y_i \sim \text{Bernoulli}(p_i)$, la varianza condicional es $\text{Var}(Y_i | X_i) = p_i(1-p_i)$. Esta varianza depende de $X_i$ por construcción — la heterocedasticidad no puede eliminarse con ninguna transformación del modelo lineal.

#### El modelo logit

El modelo logit especifica que la probabilidad condicional sigue la **función logística**:

$$P(Y_i = 1 | X_i) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_i)}} = \Lambda(\beta_0 + \beta_1 X_i)$$

donde $\Lambda(\cdot)$ denota la función de distribución acumulada logística. Esta función mapea cualquier valor real en $(0, 1)$, garantizando predicciones válidas por construcción.

La parametrización equivalente en términos de **log-odds** hace visible la linealidad subyacente:

$$\ln\left(\frac{P(Y_i=1|X_i)}{1 - P(Y_i=1|X_i)}\right) = \beta_0 + \beta_1 X_i$$

**Interpretación del coeficiente $\beta_1$:** un aumento de una unidad en $X_i$ cambia el log-odds en $\beta_1$ unidades. Equivalentemente, multiplica los odds por $e^{\beta_1}$.

Los parámetros se estiman por **máxima verosimilitud** (MV). La función de log-verosimilitud para una muestra de $n$ observaciones independientes es:

$$\ell(\beta) = \sum_{i=1}^n \left[ Y_i \ln \Lambda(X_i'\beta) + (1 - Y_i) \ln(1 - \Lambda(X_i'\beta)) \right]$$

No existe solución analítica cerrada; se maximiza numéricamente (tipicamente con Newton-Raphson). Bajo regularidad estándar, el estimador de MV es consistente y asintóticamente normal.

#### El modelo probit

El modelo probit especifica la probabilidad mediante la función de distribución acumulada normal estándar $\Phi(\cdot)$:

$$P(Y_i = 1 | X_i) = \Phi(\beta_0 + \beta_1 X_i)$$

La motivación formal es un modelo de **variable latente**: existe una variable continua no observada $Y_i^* = \beta_0 + \beta_1 X_i + \varepsilon_i$ con $\varepsilon_i \sim N(0,1)$, y observamos $Y_i = 1$ si y solo si $Y_i^* > 0$. Entonces:

$$P(Y_i = 1 | X_i) = P(Y_i^* > 0 | X_i) = P(\varepsilon_i > -(\beta_0 + \beta_1 X_i)) = \Phi(\beta_0 + \beta_1 X_i)$$

**Logit vs. Probit en la práctica:** las dos funciones de enlace son muy similares en el interior del soporte y producen estimaciones de efectos marginales casi idénticas. La diferencia principal es que la cola de la distribución logística es ligeramente más pesada que la normal, lo que hace que logit y probit difieran más cuando la probabilidad verdadera está muy cerca de 0 o de 1. En la práctica, la elección entre ellos rara vez importa para las conclusiones sustantivas.

---

(binary-marginal)=
## 3. Efectos marginales: el efecto no es constante

Una vez que estimamos un logit o probit, surge la pregunta obvia: ¿en cuánto baja la probabilidad de churn si un usuario agrega un login más por semana? La respuesta, que puede sorprender, es que **depende de cuántos logins ya hace ese usuario**.

La simulación trabaja analíticamente con la función de probabilidad. Permite ver cómo el efecto marginal de $X$ sobre $P(Y=1)$ varía a lo largo del soporte, y compara tres formas de resumirlo:

- **¿Dónde es mayor el efecto marginal?** Arrastrá el punto de evaluación $X_0$ a lo largo del eje. El efecto es máximo en el punto de inflexión de la curva sigmoide (donde la probabilidad es 0.5) y se acerca a cero en ambas colas.
- **La tangente en $X_0$:** la línea punteada roja es la aproximación lineal local del efecto — su pendiente es exactamente el efecto marginal en ese punto.
- **El panel inferior:** muestra la curva completa de efectos marginales como función de $X$. Las líneas horizontales indican el efecto en la media (ME at mean) y el efecto marginal promedio (AME, calculado integrando sobre la distribución de $X$).
- **Cambiá entre Logit y Probit:** ¿difieren mucho los efectos marginales? ¿En qué parte del soporte es mayor la diferencia?

<div style="position: relative; padding-bottom: 56.25%; height: 0; overflow: hidden;">
  <iframe src="https://simuecon.com/marginal_effects/" style="position: absolute; top: 0; left: 0; width: 100%; height: 100%; border: 0;" allowfullscreen></iframe>
</div>

### ¿Qué observamos?

**El efecto marginal es heterogéneo.** Un login adicional reduce la probabilidad de churn mucho más para un usuario moderadamente activo (4–6 logins/semana, donde la curva es más empinada) que para un usuario muy pasivo (1 login/semana, cerca de la cola izquierda donde la probabilidad basal es alta) o uno muy activo (10+ logins/semana, donde la probabilidad ya es muy baja). Esta heterogeneidad es intrínseca al modelo — no es una limitación sino una característica que refleja la no linealidad de las probabilidades.

### Resultado formal

Los coeficientes de logit y probit **no son efectos marginales**. El efecto de $X_i$ sobre la probabilidad depende del nivel de $X_i$. Para el modelo logit:

$$\frac{\partial P(Y_i=1|X_i)}{\partial X_i} = \lambda(\beta_0 + \beta_1 X_i) \cdot \beta_1$$

donde $\lambda(\cdot) = \Lambda(\cdot)[1 - \Lambda(\cdot)]$ es la densidad logística. Para el modelo probit la expresión análoga reemplaza $\lambda$ por $\phi$ (la densidad normal estándar).

Como esta derivada depende de $X_i$, se reportan tipicamente tres medidas resumen:

**Efecto marginal en el punto $X_0$:** evalúa la derivada en un valor específico de interés.

$$\text{ME}(X_0) = f(\hat{\beta}_0 + \hat{\beta}_1 X_0) \cdot \hat{\beta}_1$$

**Efecto marginal en la media (MEM):** evalúa la derivada en $\bar{X}$.

$$\text{MEM} = f(\hat{\beta}_0 + \hat{\beta}_1 \bar{X}) \cdot \hat{\beta}_1$$

**Efecto marginal promedio (AME):** promedia la derivada sobre todos los individuos de la muestra. Es la medida más usada porque tiene una interpretación de política clara — el efecto promedio en la población observada.

$$\text{AME} = \frac{1}{n} \sum_{i=1}^n f(\hat{\beta}_0 + \hat{\beta}_1 X_i) \cdot \hat{\beta}_1$$

**Resultado formal:** el AME es consistente bajo los supuestos estándar de especificación correcta del modelo. Es el análogo no lineal del coeficiente MCO en el modelo lineal de probabilidad: ambos estiman el efecto promedio en la población de un cambio marginal en $X$.

---

(binary-sigmoid)=
## 4. Extra: La función sigmoide y el espacio de log-odds

El corazón del modelo logit es la **función logística** (también llamada sigmoide): una curva en S que toma cualquier número real y lo transforma a un valor en el intervalo abierto $(0, 1)$. Esta transformación garantiza que las predicciones sean siempre probabilidades válidas.

La simulación permite explorar la función logística y su relación con el **espacio de log-odds**. El resultado clave a observar es la dualidad entre los dos paneles: la probabilidad $P(Y=1 | X)$ tiene forma de S (no lineal), pero si graficamos el log-odds $\ln[p/(1-p)]$ en función de $X$, obtenemos una línea perfectamente recta.

- **¿Qué controla $\beta_0$?** Movelo y observá cómo la curva se desplaza horizontalmente. $\beta_0$ determina la probabilidad basal cuando $X = 0$.
- **¿Qué controla $\beta_1$?** Aumentalo y observá cómo la curva se vuelve más empinada. Un $\beta_1$ grande convierte al sigmoide casi en una función escalón.
- **El panel derecho (log-odds vs. $X$):** independientemente de los parámetros, la línea siempre es recta. La pendiente de esa línea es exactamente $\beta_1$.
- **Cambiá entre Logit y Probit:** las curvas se ven muy similares pero no idénticas. ¿En qué parte del soporte difieren más?

<div style="position: relative; padding-bottom: 56.25%; height: 0; overflow: hidden;">
  <iframe src="https://simuecon.com/log_odds_sigmoid/" style="position: absolute; top: 0; left: 0; width: 100%; height: 100%; border: 0;" allowfullscreen></iframe>
</div>

### ¿Qué observamos?

**La función sigmoide tiene una dualidad elegante.** En el espacio de probabilidades, el modelo es no lineal (curva en S). Pero si transformamos la probabilidad al espacio de log-odds mediante $\ln[p/(1-p)]$, el modelo es perfectamente lineal en $X$. Es esa linealidad en log-odds la que define al modelo logit: el coeficiente $\beta_1$ es el cambio en el log-odds por unidad de $X$, no el cambio en la probabilidad.

### Resultado formal

**Resultado:** si $P(Y=1|X) = \Lambda(\beta_0 + \beta_1 X)$ donde $\Lambda(z) = 1/(1+e^{-z})$, entonces el log-odds es lineal en $X$.

**Paso 1 —** Computar los odds:

$$\frac{P(Y=1|X)}{P(Y=0|X)} = \frac{\Lambda(z)}{1 - \Lambda(z)} = \frac{1/(1+e^{-z})}{e^{-z}/(1+e^{-z})} = e^z$$

**Paso 2 —** Tomar logaritmo:

$$\ln\left(\frac{P(Y=1|X)}{P(Y=0|X)}\right) = z = \beta_0 + \beta_1 X$$

El log-odds es una función lineal de $X$ con pendiente $\beta_1$. $\blacksquare$

---

(binary-multinomial)=
## 5. Múltiples Categorías: El Logit Multinomial

¿Qué ocurre cuando la variable dependiente tiene más de dos categorías no ordenadas? Pensemos en el plan de suscripción de una empresa SaaS: **Free**, **Basic**, o **Pro**. No hay un orden natural entre ellos — son categorías cualitativas.

El **logit multinomial** generaliza el logit binario a $J$ categorías. Se elige una categoría de referencia (tipicamente la más común; aquí, Free) y se estima un vector de coeficientes para cada una de las $J-1$ categorías restantes contra la referencia. Para tres categorías:

$$P(\text{Basic} | X) = \frac{e^{\beta_{\text{Basic}} \cdot X}}{1 + e^{\beta_{\text{Basic}} \cdot X} + e^{\beta_{\text{Pro}} \cdot X}}$$

$$P(\text{Pro} | X) = \frac{e^{\beta_{\text{Pro}} \cdot X}}{1 + e^{\beta_{\text{Basic}} \cdot X} + e^{\beta_{\text{Pro}} \cdot X}}$$

$$P(\text{Free} | X) = \frac{1}{1 + e^{\beta_{\text{Basic}} \cdot X} + e^{\beta_{\text{Pro}} \cdot X}}$$

donde $\beta_j \cdot X = \beta_{0j} + \beta_{1j} X_1 + \beta_{2j} X_2$ con $X_1$ = tamaño de la empresa y $X_2$ = logins por semana.

La simulación de abajo muestra cómo los coeficientes desplazan la masa de probabilidad entre las tres categorías. El **gráfico de áreas apiladas** hace visible la restricción de que las probabilidades suman exactamente 1: cuando $P(\text{Pro})$ sube, alguna otra probabilidad debe bajar.

¿Qué explorar?

- **Aumentá los coeficientes para Pro vs. Free:** observá cómo $P(\text{Pro})$ sube a expensas de las demás categorías. ¿De cuál categoría "roba" más?
- **Igualar los coeficientes de Basic y Pro:** cuando ambos vectores de coeficientes son idénticos, el modelo no puede distinguir entre los dos planes — las probabilidades predicted se acercan entre sí.
- **El panel de predicción individual:** cambiá el perfil de empresa (tamaño y logins) y observá en tiempo real qué plan el modelo predice como más probable.
- **La tabla de razones de odds:** $e^{\beta_{1j}}$ da la razón de odds de la categoría $j$ vs. Free por cada unidad adicional de $X_1$. ¿Cuándo esta interpretación es más intuitiva que la probabilidad directa?

<div style="position: relative; padding-bottom: 56.25%; height: 0; overflow: hidden;">
  <iframe src="https://simuecon.com/multinomial_logit/" style="position: absolute; top: 0; left: 0; width: 100%; height: 100%; border: 0;" allowfullscreen></iframe>
</div>

**Supuesto IIA.** El logit multinomial impone el **supuesto de independencia de alternativas irrelevantes** (IIA): la razón de probabilidades entre dos categorías no depende de qué otras categorías existan en el conjunto de elección. En el ejemplo, $P(\text{Pro})/P(\text{Basic})$ es la misma independientemente de si existe o no el plan Free. Esto puede ser irreal en algunos contextos — si se añadiera un plan "Pro Lite" muy similar al Pro, el IIA predicaría que le quitaría cuota de mercado a Free y Basic en proporción fija, lo cual es difícilmente creíble. Los modelos logit anidado o probit multinomial permiten relajar este supuesto cuando es relevante.

---

(binary-appendix)=
## Apéndice: Derivaciones Formales

### A.1 Heterocedasticidad estructural en el MLP

**Resultado:** en el modelo lineal de probabilidad, $\text{Var}(\varepsilon_i | X_i) = p_i(1-p_i)$, que depende de $X_i$.

**Paso 1 —** Escribir $Y_i = p_i + \varepsilon_i$ donde $p_i = E[Y_i|X_i]$.

**Paso 2 —** Como $Y_i \in \{0,1\}$:

$$\text{Var}(Y_i | X_i) = E[Y_i^2 | X_i] - (E[Y_i|X_i])^2 = p_i - p_i^2 = p_i(1-p_i)$$

**Paso 3 —** Como $p_i = \beta_0 + \beta_1 X_i$, la varianza depende de $X_i$ siempre que $\beta_1 \neq 0$. MCO sigue siendo consistente pero no eficiente, y los errores estándar usuales son incorrectos. $\blacksquare$

### A.2 Consistencia del estimador de MV en logit

Bajo las condiciones de regularidad estándar (especificación correcta, soporte compacto, matriz de información no singular), el estimador de MV $\hat{\beta}^{\text{MV}}$ satisface:

$$\sqrt{n}(\hat{\beta}^{\text{MV}} - \beta^*) \xrightarrow{d} N(0, \mathcal{I}(\beta^*)^{-1})$$

donde $\mathcal{I}(\beta^*) = -E[\partial^2 \ell / \partial\beta\,\partial\beta']$ es la matriz de información de Fisher. La demostración sigue la teoría general de estimación por MV (Amemiya, 1985, Cap. 4).

### A.3 El efecto marginal promedio como estimador consistente

El AME poblacional es $\delta = E[f(\beta_0 + \beta_1 X_i) \cdot \beta_1]$ donde $f$ es la densidad del modelo. El estimador muestral:

$$\widehat{\text{AME}} = \frac{1}{n} \sum_{i=1}^n f(\hat{\beta}_0 + \hat{\beta}_1 X_i) \cdot \hat{\beta}_1$$

es consistente por el teorema de mapeo continuo aplicado al estimador de MV consistente $\hat{\beta}$ y la ley de grandes números. Los errores estándar del AME se obtienen por el método delta. $\blacksquare$