3. Regresión

Regresión de Galton. Wikimedia

Creative Commons

Ya sabemos cómo calcular la correlación. El siguiente paso consiste en averiguar cuál es la recta que representa más fielmente (en lenguaje estadístico se dice que se "ajusta" mejor) a la nube de puntos. Como hemos dicho, Galton se refirió a ésta como la recta de regresión, uno de cuyos gráficos originales podemos ver en la imagen adjunta.

Cómo determinar la recta que mejor se ajuste a un conjunto de puntos no es tarea fácil. Matemáticamente, una forma de obtenerla consiste en minimizar la suma de los cuadrados de las distancias de cada punto de la nube al punto de la recta que tiene la misma abscisa, es lo que se conoce como método de mínimos cuadrados, que estudiaremos en el siguiente apartado y que nos da la recta de regresión "de Y sobre X".

Pero no es la única manera, también se puede calcular la recta que minimiza los cuadrados de las distancias "en horizontal", lo que da lugar a otra recta de regresión "de X sobre Y".

En la imagen de Galton podemos ver las dos rectas de regresión que obtuvo. 

La recta de regresión nos sirve también para hacer predicciones si los datos están muy correlacionados. Con ella podemos calcular valores para datos que no están incluidos en la nube de puntos, o bien para saber cuál sería el valor teórico de un determinado valor de la variable X, y compararlo con el obtenido en la realidad. Aspecto éste que desarrollaremos en el apartado 3.2.

 

Icono IDevice Curiosidad

Sir Francis Galton

Wikimedia (Dom. Público)

Ya sabemos que la teoría de la correlación y de la regresión nació como una consecuencia de la Teoría de la Evolución de Darwin. Francis Galton, quiso demostrarla con métodos científicos, montando con tal fin un laboratorio biométrico en Londres en el que recogió medidas biológicas de muy diverso tipo: alturas, pesos, huesos,...

Uno de los problemas que estudió Galton fue el de medir y predecir la talla de los hijos en función de la que tenían los padres. Comprobó que, en general, las parejas altas tenían hijos altos, y lo mismo ocurría con las parejas de baja talla. Pero descubrió que si los padres eran muy altos, los hijos tendían también a ser altos pero menos que los padres, y lo mismo ocurría con los muy bajos. Según sus palabras, era como si la talla de los hijos "regresara" a la talla media de la población. Desde entonces el nombre regresión se ha mantenido invariable.