Propiedades Estadísticas de los Coeficientes Estimados

Propiedades Estadísticas de los Coeficientes Estimados#

El objetivo de esta sección es explorar las propiedades estadísticas de un modelo de regresión simple. En particular, nos ocuparemos de una situación en donde se asume que la relación entre una variable a explicar \(Y\) y una variable explicativa \(X\) está dada por

\[ Y_i=\beta_0+\beta_1X_i+\varepsilon_i \]

donde \(\beta_0\) y \(\beta_1\) son los parámetros poblacionales de interés, y \(\varepsilon_i\) es un término de error aleatorio. Consideraremos \(n\) observaciones, indexadas por \(i=1,...,n\), provenientes de una muestra de la población de interés.

Asumiremos también que, a partir de la muestra de datos, estimamos el modelo mediante el método de Mínimos Cuadrados Ordinarios, obteniendo valores para los estimadores \(\hat{\beta_0}\) y \(\hat{\beta_1}\). La pregunta estadística que nos ocupa es:

¿Qué podemos decir sobre la precisión de los estimadores \(\hat{\beta_0}\) y \(\hat{\beta_1}\)? ¿Qué tan cerca (o lejos) esperamos que se encuentren de los verdaderos valores de \(\beta_0\) y \(\beta_1\)?

Afortunadamente, la teoría estadística nos provee dos resultados importantes para entender esta pregunta: la ausencia de sesgo y los determinantes de su varianza. En esta sección introduciremos primero estos conceptos de manera teórica, y luego utilizaremos una simulación interactiva para demostrar estos resultados de forma numérica.

Introducimos los conceptos a continuación:


1. Ausencia de Sesgo (Insesgadez): Esta propiedad establece que, en valor esperado, los coeficientes estimados serán iguales a los verdaderos coeficientes poblacionales. La intuición detrás de este resultado es que, aunque las estimaciones individuales pueden variar y diferir del valor verdadero debido a la aleatoriedad inherente del muestreo, si pudiéramos repetir esta estimación en múltiples muestras, el promedio de estas estimaciones coincidiría con el valor verdadero. Esta propiedad garantiza que nuestras estimaciones no estén sistemáticamente sesgadas en una dirección particular, proporcionando un nivel de confianza en su precisión.


2. Varianza: Aunque insesgadas, nuestras estimaciones siempre exhibirán cierto grado de varianza, que cuantifica la incertidumbre alrededor del coeficiente estimado. Esta varianza mide cuánto pueden desviarse nuestros coeficientes estimados de los verdaderos coeficientes poblacionales. Una varianza más alta indica una estimación menos precisa, lo que significa que el valor verdadero podría estar más lejos del valor estimado. Por el contrario, una varianza más baja sugiere una estimación más confiable, donde el valor verdadero probablemente esté más cerca del valor estimado. La varianza de nuestras estimaciones está influenciada por dos factores clave:

  • Error en el modelo: La presencia de variación no explicada en la variable dependiente (\(Y\)) contribuye a la varianza de nuestras estimaciones. Este error puede atribuirse a factores no incluidos en el modelo o a la aleatoriedad inherente en los datos.

  • Variabilidad de la variable independiente: Una mayor dispersión en los valores de nuestra variable independiente (\(X\)) conduce a una menor varianza en nuestras estimaciones de coeficientes. Esto se debe a que un rango más amplio de valores de X proporciona más información para estimar la relación con Y.


Para ilustrar numéricamente estos resultados, la simulación que presentamos a continuación nos permite explorar la siguiente pregunta: si pudiéramos simular múltiples muestras de datos de un modelo poblacional conocido, ¿qué tan cercanas serían las estimaciones (\(\hat{\beta_0}\) y \(\hat{\beta_1}\)) a los valores verdaderos (\(\beta_0\) y \(\beta_1\))? La simulación les permitirá experimentar con diferentes supuestos del modelo poblacional y visualizar los resultados de las múltiples estimaciones mediante gráficos.