Modelo de Regresión Simple y Múltiple: Interpretación de los resultados e Inferencia Estadística
Regresión lineal simple
La regresión lineal simple consiste en generar un modelo de regresión (ecuación de una recta) que permita explicar la relación lineal que existe entre dos variables. A la variable dependiente o respuesta se le identifica como Y y a la variable predictora o independiente como X.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:
Y=β0+β1X1+ϵ
Siendo β0 la ordenada en el origen, β1 la pendiente y ϵ el error aleatorio. Este último representa la diferencia entre el valor ajustado por la recta y el valor real. Recoge el efecto de todas aquellas variables que influyen en Y pero que no se incluyen en el modelo como predictores. Al error aleatorio también se le conoce como residuo.
En la gran mayoría de casos, los valores β0 y β1 poblacionales son desconocidos, por lo que, a partir de una muestra, se obtienen sus estimaciones β^0 y β^1. Estas estimaciones se conocen como coeficientes de regresión o least square coefficient estimates, ya que toman aquellos valores que minimizan la suma de cuadrados residuales, dando lugar a la recta que pasa más cerca de todos los puntos. (Existen alternativas al método de mínimos cuadrados para obtener las estimaciones de los coeficientes).
y^=β^0+β^1x
β^1=∑ni=1(xi−x¯¯¯)(yi−y¯¯¯)∑ni=1(xi−x¯¯¯)2=SySxR
β^0=y¯¯¯−β^1x¯¯¯
Donde Sy y Sx son las desviaciones típicas de cada variable y R el coeficiente de correlación. β^0 es el valor esperado la variable Y cuando X = 0, es decir, la intersección de la recta con el eje y. Es un dato necesario para generar la recta, pero en ocasiones, no tiene interpretación práctica (situaciones en las que X no puede adquirir el valor 0).
Regresión lineal múltiple
La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la variable dependiente o respuesta (YY) se determina a partir de un conjunto de variables independientes llamadas predictores (X1X1, X2X2, X3X3…). Es una extensión de la regresión lineal simple, por lo que es fundamental comprender esta última. Los modelos de regresión múltiple pueden emplearse para predecir el valor de la variable dependiente o para evaluar la influencia que tienen los predictores sobre ella (esto último se debe que analizar con cautela para no malinterpretar causa-efecto).
Los modelos lineales múltiples siguen la siguiente ecuación:
Yi=(β0+β1X1i+β2X2i+⋯+βnXni)+eiYi=(β0+β1X1i+β2X2i+⋯+βnXni)+ei
- β0β0: es la ordenada en el origen, el valor de la variable dependiente YY cuando todos los predictores son cero.
- βiβi: es el efecto promedio que tiene el incremento en una unidad de la variable predictora XiXi sobre la variable dependiente YY, manteniéndose constantes el resto de variables. Se conocen como coeficientes parciales de regresión.
- eiei: es el residuo o error, la diferencia entre el valor observado y el estimado por el modelo.
Es importante tener en cuenta que la magnitud de cada coeficiente parcial de regresión depende de las unidades en las que se mida la variable predictora a la que corresponde, por lo que su magnitud no está asociada con la importancia de cada predictor. Para poder determinar qué impacto tienen en el modelo cada una de las variables, se emplean los coeficientes parciales estandarizados, que se obtienen al estandarizar (sustraer la media y dividir entre la desviación estándar) las variables predictoras previo ajuste del modelo.