LOS 4 SUPUESTOS DE LA REGRESIÓN LINEAL

Ajuste-Regresion-Lineal

Primero que todo, en sencillo, una regresión lineal múltiple es un análisis de regresión donde se busca relacionar múltiples variables de intervalo o nominales (Variables independientes) con otra variable más (Variable dependiente). En otras palabras, es una extensión de la regresión lineal simple. Este artículo no va a tratar de la regresión múltiple en su totalidad, porque es mejor separar los supuestos de la regresión y el análisis en sí.

La regresión múltiple tiene 4 supuestos importantes que hay que seguir para hacer un análisis preciso y no sesgado:

1) Normalidad

2) Relación lineal

3) Aditividad y Multicolinealidad

4) Homocedasticidad

Un tema importante, el punto 1 y el 2, se revisan o se prueban antes de hacer la regresión final, mientras que el 3 y 4, por lo general se prueban después que se hizo la regresión lineal.

Normalidad: 

Esto se refiere a que todos nuestros datos, tanto nuestras variables independientes así como nuestra variable dependiente, tienen que tener puntajes que están distribuidos normalmente. Más específicamente los residuos (error) de estos puntajes deben tener una distribución normal. ¿Por qué es importante esto? La regresión es un análisis lineal y por ello, trabaja con relaciones lineales. Cuando los errores de las variables tienen distribución no normal, pueden afectar las relaciones y la significancia. ¿Por qué se enfocan en los errores y no la medición en sí? Porque en una regresión lineal también es posible poner variables dicotómicas (sexo) y estas no tienen una distribución normal (Williams, Grajales, & Kurkiewicz, 2013).

Relación lineal

Este segundo supuesto está dirigido a la relación entre las variable independientes y dependiente. La relación entre cada variable independiente con la variable dependiente debe ser lineal. En otras palabras, debe haber una correlación entre las variables independientes y la dependiente.  ¿Qué es una correlación o relación? Este post les puede dar indicios de qué es una correlación entre dos variables. Los análisis de correlación se deben hacer antes de la regresión para poder saber qué variables tienen relación con la que deseamos medir. ¿Por qué? Porque este análisis previo nos permitirá saber qué variables incluimos en nuestro modelo de regresión. 

Additividad y multicolinealidad

La aditividad se refiere a que el modelo de regresión lineal es aditivo. Es decir, que cada variable independiente por sí sola, suma a la explicación de la variable dependiente. En otras palabras, no hay relación entre las variables independientes. Si hubiera relación entre las variables independientes de nuestro modelo, tendríamos un problema llamado multicolinealidad.  La multicolinealidad es cuando dos variables independientes están relacionadas.

¿Por qué es un problema? Por una razón sencilla: Si hay  relación entre dos variables entonces son muy parecidas y por ello tener las dos no aporta nada a explicar mejor nuestra variable dependiente. Les pongo un ejemplo, imagínense que tenemos un album de figuritas del mundial y sólo nos faltan dos. Si compramos unas figuritas en la tienda y nos vienen dos iguales y entre ellas está una de las que nos faltaba, esto no nos va a permitir llenar el album. Lo mismo pasa con la multicolinealidad, dos variables independientes muy relacionadas que parecen iguales no nos ayudarán a explicar más nuestra variable dependiente o a llenar el álbum.

¿Cómo se revisa si hay la terrible multicolinealidad?  Existen dos maneras:

a) Previo a hacer nuestro modelo de regresión múltiple analizar con una correlación de Pearson (ver post), para ver si hay relación fuerte entre nuestras variables independientes.

b) Durante el análisis estadístico de regresión múltiple se le puede pedir al programa, diagnósticos de multicolinealidad. 

Homocedasticidad

La homocedasticidad es cuando la varianza de los errores de medición de nuestro análisis es igual para todas las variables independientes. ¿Qué era varianza? Aquí un pequeño recordatorio de lo que es una varianza. A su vez, cuándo esta varianza es diferente entre las diferentes variables independientes tenemos un problema de Heterocedasticidad. La Heterocedasticidad puede arruinar nuestros resultados y hacernos caer en un error: podríamos asumir que algo está relacionado cuando en realidad no lo está. ¿Se acuerdan cómo se llama ésto? Pueden ir a este post para refrescar la mente (Tabachnick, & Fidell, 1996, 2001).

Así como la Multicolinealidad, hay una manera de revisar si existe Homocedasticidad en nuestros datos. Se revisa un gráfico, y si la varianza del error de nuestras variables independientes está relacionada con la varianza que predice nuestra variable dependiente estamos mal. Porque hay Heterocedasticidad, el error no debe estar relacionado con nuestra capacidad para predecir nuestra variable dependiente. Para mayor referencia pueden ver Osborne y Waters, (2002).

Hay un tema importantísimo a tomar en cuenta. Todos estos supuestos se dan asumiendo que nuestros datos son confiables. Partimos de la base que la confiabilidad es un supuesto que se aplica para todos los análisis y no exclusivamente para la regresión.

Fuente:  http://statssos.net/2015/03/18/gonzalo-apoya-la-aditividad-los-4-supuestos-de-la-regresion-lineal/

Anuncios