Variables Dependientes Categóricas: Logit y Probit

Contenido

Variables Dependientes Categóricas: Logit y Probit#

Considere la siguiente situación: Un equipo de producto en una empresa SaaS quiere predecir qué usuarios van a abandonar el servicio en los próximos 30 días. La variable que les interesa es categórica: el usuario «abandonó» o se «quedó». En base a lo que vimos previamente, el reflejo natural de cualquier econometrista sería transformar esta variable en una variable binaria (1 si «abandonó», y 0 si se «quedó») y correr una regresión. Pero ¿puede MCO predecir probabilidades? ¿Qué pasa cuando la variable dependiente solo toma dos valores?

Esta sección responde esas preguntas. Presentamos el modelo de regresión logística (logit) y el modelo probit como alternativas a MCO para variables dependientes binarias, exploramos la interpretación de sus coeficientes a través de efectos marginales, y extendemos la idea al caso de múltiples categorías con el logit multinomial.

1. Objetivos#

Al terminar esta sección vas a poder:

Identificar por qué MCO produce estimaciones problemáticas cuando la variable dependiente es binaria, tanto en términos de predicciones fuera del rango \([0,1]\) como de heterocedasticidad estructural en los residuos.
Entender cómo el modelo logit y el modelo probit resuelven estos problemas mapeando un índice lineal al intervalo \([0,1]\) mediante una función de enlace.
Interpretar correctamente los coeficientes estimados de un logit o probit, que no representan efectos marginales sino efectos sobre el log-odds o el índice latente.
Calcular e interpretar efectos marginales: el efecto en el punto \(X_0\), el efecto en la media, y el efecto marginal promedio (AME).
Aplicar el logit multinomial cuando la variable dependiente toma más de dos valores no ordenados.

2. El problema con MCO y la solución mediante Logit o Probit#

MCO puede estimar una relación lineal entre \(X\) y \(Y\), pero cuando \(Y\) solo toma los valores 0 y 1, esa linealidad crea dos problemas inevitables: predicciones fuera del rango \([0,1]\) y heterocedasticidad estructural en los residuos. La simulación de abajo compara MCO, Logit y Probit sobre una muestra de 500 usuarios de una empresa SaaS donde \(Y_i = 1\) si el usuario abandonó el servicio y \(X_i\) es el promedio de logins por semana.

¿Qué buscar?

Con MCO: fijate en las regiones sombreadas en rojo — son las zonas donde el modelo predice probabilidades menores a 0 o mayores a 1. Estos no son errores de estimación; son fallas estructurales del modelo lineal.
El panel de residuos vs. valores ajustados de MCO: observá el patrón de dos bandas. Los residuos no son aleatorios — tienen estructura. Esto refleja heterocedasticidad intrínseca en un modelo lineal de probabilidad.
Logit y Probit: los residuos son más difusos, sin ese patrón de bandas. La tabla muestra que las predicciones en \(X = 2, 5, 10\) son siempre probabilidades válidas.
¿Cuándo se parecen Logit y Probit? Cuando la probabilidad basal es moderada (alrededor del 50%), los tres modelos dan resultados similares en el interior. Las diferencias más grandes aparecen cuando la probabilidad verdadera se acerca a 0 o a 1.

¿Qué observamos?#

MCO falla en las colas, no en el centro. Cuando la probabilidad verdadera es moderada y la muestra es grande, el modelo lineal de probabilidad (MCO) produce estimaciones del coeficiente razonablemente similares a logit y probit. El problema aparece en las predicciones: en cuanto el rango de \(X\) es suficientemente amplio, MCO inevitablemente produce predicciones por fuera de \([0,1]\). Además, los residuos tienen una estructura de dos bandas que refleja heterocedasticidad intrínseca — los errores no pueden tener varianza constante cuando \(Y\) solo toma los valores 0 y 1.

Resultado formal#

El problema con MCO#

Cuando la variable dependiente es binaria, \(Y_i \in \{0, 1\}\), la esperanza condicional es la probabilidad:

\[E[Y_i | X_i] = P(Y_i = 1 | X_i) = p_i\]

El modelo lineal de probabilidad (MLP) especifica directamente \(p_i = \beta_0 + \beta_1 X_i\). MCO estima este modelo consistentemente bajo los supuestos usuales, pero tiene dos fallas estructurales inevitables.

Falla 1 — Predicciones fuera de rango. Nada impide que \(\hat{\beta}_0 + \hat{\beta}_1 X_i\) sea negativo o mayor que 1. Probabilidades negativas o mayores a 1 carecen de significado.

Falla 2 — Heterocedasticidad estructural. Como \(Y_i \sim \text{Bernoulli}(p_i)\), la varianza condicional es \(\text{Var}(Y_i | X_i) = p_i(1-p_i)\). Esta varianza depende de \(X_i\) por construcción — la heterocedasticidad no puede eliminarse con ninguna transformación del modelo lineal.

El modelo logit#

El modelo logit especifica que la probabilidad condicional sigue la función logística:

\[P(Y_i = 1 | X_i) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_i)}} = \Lambda(\beta_0 + \beta_1 X_i)\]

donde \(\Lambda(\cdot)\) denota la función de distribución acumulada logística. Esta función mapea cualquier valor real en \((0, 1)\), garantizando predicciones válidas por construcción.

La parametrización equivalente en términos de log-odds hace visible la linealidad subyacente:

\[\ln\left(\frac{P(Y_i=1|X_i)}{1 - P(Y_i=1|X_i)}\right) = \beta_0 + \beta_1 X_i\]

Interpretación del coeficiente \(\beta_1\): un aumento de una unidad en \(X_i\) cambia el log-odds en \(\beta_1\) unidades. Equivalentemente, multiplica los odds por \(e^{\beta_1}\).

Los parámetros se estiman por máxima verosimilitud (MV). La función de log-verosimilitud para una muestra de \(n\) observaciones independientes es:

\[\ell(\beta) = \sum_{i=1}^n \left[ Y_i \ln \Lambda(X_i'\beta) + (1 - Y_i) \ln(1 - \Lambda(X_i'\beta)) \right]\]

No existe solución analítica cerrada; se maximiza numéricamente (tipicamente con Newton-Raphson). Bajo regularidad estándar, el estimador de MV es consistente y asintóticamente normal.

El modelo probit#

El modelo probit especifica la probabilidad mediante la función de distribución acumulada normal estándar \(\Phi(\cdot)\):

\[P(Y_i = 1 | X_i) = \Phi(\beta_0 + \beta_1 X_i)\]

La motivación formal es un modelo de variable latente: existe una variable continua no observada \(Y_i^* = \beta_0 + \beta_1 X_i + \varepsilon_i\) con \(\varepsilon_i \sim N(0,1)\), y observamos \(Y_i = 1\) si y solo si \(Y_i^* > 0\). Entonces:

\[P(Y_i = 1 | X_i) = P(Y_i^* > 0 | X_i) = P(\varepsilon_i > -(\beta_0 + \beta_1 X_i)) = \Phi(\beta_0 + \beta_1 X_i)\]

Logit vs. Probit en la práctica: las dos funciones de enlace son muy similares en el interior del soporte y producen estimaciones de efectos marginales casi idénticas. La diferencia principal es que la cola de la distribución logística es ligeramente más pesada que la normal, lo que hace que logit y probit difieran más cuando la probabilidad verdadera está muy cerca de 0 o de 1. En la práctica, la elección entre ellos rara vez importa para las conclusiones sustantivas.

3. Efectos marginales: el efecto no es constante#

Una vez que estimamos un logit o probit, surge la pregunta obvia: ¿en cuánto baja la probabilidad de churn si un usuario agrega un login más por semana? La respuesta, que puede sorprender, es que depende de cuántos logins ya hace ese usuario.

La simulación trabaja analíticamente con la función de probabilidad. Permite ver cómo el efecto marginal de \(X\) sobre \(P(Y=1)\) varía a lo largo del soporte, y compara tres formas de resumirlo:

¿Dónde es mayor el efecto marginal? Arrastrá el punto de evaluación \(X_0\) a lo largo del eje. El efecto es máximo en el punto de inflexión de la curva sigmoide (donde la probabilidad es 0.5) y se acerca a cero en ambas colas.
La tangente en \(X_0\): la línea punteada roja es la aproximación lineal local del efecto — su pendiente es exactamente el efecto marginal en ese punto.
El panel inferior: muestra la curva completa de efectos marginales como función de \(X\). Las líneas horizontales indican el efecto en la media (ME at mean) y el efecto marginal promedio (AME, calculado integrando sobre la distribución de \(X\)).
Cambiá entre Logit y Probit: ¿difieren mucho los efectos marginales? ¿En qué parte del soporte es mayor la diferencia?

¿Qué observamos?#

El efecto marginal es heterogéneo. Un login adicional reduce la probabilidad de churn mucho más para un usuario moderadamente activo (4–6 logins/semana, donde la curva es más empinada) que para un usuario muy pasivo (1 login/semana, cerca de la cola izquierda donde la probabilidad basal es alta) o uno muy activo (10+ logins/semana, donde la probabilidad ya es muy baja). Esta heterogeneidad es intrínseca al modelo — no es una limitación sino una característica que refleja la no linealidad de las probabilidades.

Resultado formal#

Los coeficientes de logit y probit no son efectos marginales. El efecto de \(X_i\) sobre la probabilidad depende del nivel de \(X_i\). Para el modelo logit:

\[\frac{\partial P(Y_i=1|X_i)}{\partial X_i} = \lambda(\beta_0 + \beta_1 X_i) \cdot \beta_1\]

donde \(\lambda(\cdot) = \Lambda(\cdot)[1 - \Lambda(\cdot)]\) es la densidad logística. Para el modelo probit la expresión análoga reemplaza \(\lambda\) por \(\phi\) (la densidad normal estándar).

Como esta derivada depende de \(X_i\), se reportan tipicamente tres medidas resumen:

Efecto marginal en el punto \(X_0\): evalúa la derivada en un valor específico de interés.

\[\text{ME}(X_0) = f(\hat{\beta}_0 + \hat{\beta}_1 X_0) \cdot \hat{\beta}_1\]

Efecto marginal en la media (MEM): evalúa la derivada en \(\bar{X}\).

\[\text{MEM} = f(\hat{\beta}_0 + \hat{\beta}_1 \bar{X}) \cdot \hat{\beta}_1\]

Efecto marginal promedio (AME): promedia la derivada sobre todos los individuos de la muestra. Es la medida más usada porque tiene una interpretación de política clara — el efecto promedio en la población observada.

\[\text{AME} = \frac{1}{n} \sum_{i=1}^n f(\hat{\beta}_0 + \hat{\beta}_1 X_i) \cdot \hat{\beta}_1\]

Resultado formal: el AME es consistente bajo los supuestos estándar de especificación correcta del modelo. Es el análogo no lineal del coeficiente MCO en el modelo lineal de probabilidad: ambos estiman el efecto promedio en la población de un cambio marginal en \(X\).

4. Extra: La función sigmoide y el espacio de log-odds#

El corazón del modelo logit es la función logística (también llamada sigmoide): una curva en S que toma cualquier número real y lo transforma a un valor en el intervalo abierto \((0, 1)\). Esta transformación garantiza que las predicciones sean siempre probabilidades válidas.

La simulación permite explorar la función logística y su relación con el espacio de log-odds. El resultado clave a observar es la dualidad entre los dos paneles: la probabilidad \(P(Y=1 | X)\) tiene forma de S (no lineal), pero si graficamos el log-odds \(\ln[p/(1-p)]\) en función de \(X\), obtenemos una línea perfectamente recta.

¿Qué controla \(\beta_0\)? Movelo y observá cómo la curva se desplaza horizontalmente. \(\beta_0\) determina la probabilidad basal cuando \(X = 0\).
¿Qué controla \(\beta_1\)? Aumentalo y observá cómo la curva se vuelve más empinada. Un \(\beta_1\) grande convierte al sigmoide casi en una función escalón.
El panel derecho (log-odds vs. \(X\)): independientemente de los parámetros, la línea siempre es recta. La pendiente de esa línea es exactamente \(\beta_1\).
Cambiá entre Logit y Probit: las curvas se ven muy similares pero no idénticas. ¿En qué parte del soporte difieren más?

¿Qué observamos?#

La función sigmoide tiene una dualidad elegante. En el espacio de probabilidades, el modelo es no lineal (curva en S). Pero si transformamos la probabilidad al espacio de log-odds mediante \(\ln[p/(1-p)]\), el modelo es perfectamente lineal en \(X\). Es esa linealidad en log-odds la que define al modelo logit: el coeficiente \(\beta_1\) es el cambio en el log-odds por unidad de \(X\), no el cambio en la probabilidad.

Resultado formal#

Resultado: si \(P(Y=1|X) = \Lambda(\beta_0 + \beta_1 X)\) donde \(\Lambda(z) = 1/(1+e^{-z})\), entonces el log-odds es lineal en \(X\).

Paso 1 — Computar los odds:

\[\frac{P(Y=1|X)}{P(Y=0|X)} = \frac{\Lambda(z)}{1 - \Lambda(z)} = \frac{1/(1+e^{-z})}{e^{-z}/(1+e^{-z})} = e^z\]

Paso 2 — Tomar logaritmo:

\[\ln\left(\frac{P(Y=1|X)}{P(Y=0|X)}\right) = z = \beta_0 + \beta_1 X\]

El log-odds es una función lineal de \(X\) con pendiente \(\beta_1\). \(\blacksquare\)

5. Múltiples Categorías: El Logit Multinomial#

¿Qué ocurre cuando la variable dependiente tiene más de dos categorías no ordenadas? Pensemos en el plan de suscripción de una empresa SaaS: Free, Basic, o Pro. No hay un orden natural entre ellos — son categorías cualitativas.

El logit multinomial generaliza el logit binario a \(J\) categorías. Se elige una categoría de referencia (tipicamente la más común; aquí, Free) y se estima un vector de coeficientes para cada una de las \(J-1\) categorías restantes contra la referencia. Para tres categorías:

\[P(\text{Basic} | X) = \frac{e^{\beta_{\text{Basic}} \cdot X}}{1 + e^{\beta_{\text{Basic}} \cdot X} + e^{\beta_{\text{Pro}} \cdot X}}\]

\[P(\text{Pro} | X) = \frac{e^{\beta_{\text{Pro}} \cdot X}}{1 + e^{\beta_{\text{Basic}} \cdot X} + e^{\beta_{\text{Pro}} \cdot X}}\]

\[P(\text{Free} | X) = \frac{1}{1 + e^{\beta_{\text{Basic}} \cdot X} + e^{\beta_{\text{Pro}} \cdot X}}\]

donde \(\beta_j \cdot X = \beta_{0j} + \beta_{1j} X_1 + \beta_{2j} X_2\) con \(X_1\) = tamaño de la empresa y \(X_2\) = logins por semana.

La simulación de abajo muestra cómo los coeficientes desplazan la masa de probabilidad entre las tres categorías. El gráfico de áreas apiladas hace visible la restricción de que las probabilidades suman exactamente 1: cuando \(P(\text{Pro})\) sube, alguna otra probabilidad debe bajar.

¿Qué explorar?

Aumentá los coeficientes para Pro vs. Free: observá cómo \(P(\text{Pro})\) sube a expensas de las demás categorías. ¿De cuál categoría «roba» más?
Igualar los coeficientes de Basic y Pro: cuando ambos vectores de coeficientes son idénticos, el modelo no puede distinguir entre los dos planes — las probabilidades predicted se acercan entre sí.
El panel de predicción individual: cambiá el perfil de empresa (tamaño y logins) y observá en tiempo real qué plan el modelo predice como más probable.
La tabla de razones de odds: \(e^{\beta_{1j}}\) da la razón de odds de la categoría \(j\) vs. Free por cada unidad adicional de \(X_1\). ¿Cuándo esta interpretación es más intuitiva que la probabilidad directa?

Supuesto IIA. El logit multinomial impone el supuesto de independencia de alternativas irrelevantes (IIA): la razón de probabilidades entre dos categorías no depende de qué otras categorías existan en el conjunto de elección. En el ejemplo, \(P(\text{Pro})/P(\text{Basic})\) es la misma independientemente de si existe o no el plan Free. Esto puede ser irreal en algunos contextos — si se añadiera un plan «Pro Lite» muy similar al Pro, el IIA predicaría que le quitaría cuota de mercado a Free y Basic en proporción fija, lo cual es difícilmente creíble. Los modelos logit anidado o probit multinomial permiten relajar este supuesto cuando es relevante.

Apéndice: Derivaciones Formales#

A.1 Heterocedasticidad estructural en el MLP#

Resultado: en el modelo lineal de probabilidad, \(\text{Var}(\varepsilon_i | X_i) = p_i(1-p_i)\), que depende de \(X_i\).

Paso 1 — Escribir \(Y_i = p_i + \varepsilon_i\) donde \(p_i = E[Y_i|X_i]\).

Paso 2 — Como \(Y_i \in \{0,1\}\):

\[\text{Var}(Y_i | X_i) = E[Y_i^2 | X_i] - (E[Y_i|X_i])^2 = p_i - p_i^2 = p_i(1-p_i)\]

Paso 3 — Como \(p_i = \beta_0 + \beta_1 X_i\), la varianza depende de \(X_i\) siempre que \(\beta_1 \neq 0\). MCO sigue siendo consistente pero no eficiente, y los errores estándar usuales son incorrectos. \(\blacksquare\)

A.2 Consistencia del estimador de MV en logit#

Bajo las condiciones de regularidad estándar (especificación correcta, soporte compacto, matriz de información no singular), el estimador de MV \(\hat{\beta}^{\text{MV}}\) satisface:

\[\sqrt{n}(\hat{\beta}^{\text{MV}} - \beta^*) \xrightarrow{d} N(0, \mathcal{I}(\beta^*)^{-1})\]

donde \(\mathcal{I}(\beta^*) = -E[\partial^2 \ell / \partial\beta\,\partial\beta']\) es la matriz de información de Fisher. La demostración sigue la teoría general de estimación por MV (Amemiya, 1985, Cap. 4).

A.3 El efecto marginal promedio como estimador consistente#

El AME poblacional es \(\delta = E[f(\beta_0 + \beta_1 X_i) \cdot \beta_1]\) donde \(f\) es la densidad del modelo. El estimador muestral:

\[\widehat{\text{AME}} = \frac{1}{n} \sum_{i=1}^n f(\hat{\beta}_0 + \hat{\beta}_1 X_i) \cdot \hat{\beta}_1\]

es consistente por el teorema de mapeo continuo aplicado al estimador de MV consistente \(\hat{\beta}\) y la ley de grandes números. Los errores estándar del AME se obtienen por el método delta. \(\blacksquare\)