2.2 Correlación

Buscando un parámetro que midiera la relación entre las dos variables X e Y, de tal manera que fuera invariante, Galton propuso la correlación lineal, que sí cumplía con tal condición. Para eliminar las dimensiones utilizadas, dividió la covarianza por un valor que tuviera las mismas dimensiones, eligiendo precisamente el producto . A la correlación se la denota con la letra o con la letra griega y se define por:

Propiedades de la correlación lineal

Las propiedades que hacen importante la correlación lineal son:

1. La correlación es invariante respecto a los cambios de escala, es decir, que si cambiamos las unidades de medida empleadas (por ejemplo, de cm a m), la correlación no cambia.

2. La correlación es un valor comprendido entre -1 y 1: .

3. Si la correlación es positiva, la relación que hay entre las variables X e Y es directa (si X aumenta, Y también lo hace). Y si es negativa, la relación es inversa (si X aumenta, Y disminuye).

4. Si la correlación está próxima a 1 o -1 la relación lineal entre las variables es fuerte, mientras que si la correlación es pequeña (cercana a 0), la relación lineal entre X e Y es débil.

 

No obstante, la correlación lineal no es una medida perfecta, sus dos principales defectos son:

1. Un valor aislado del resto de la nube de puntos puede ejercer una influencia grande en el valor de la correlación (ver el tercer y cuarto ejemplos del cuarteto de Anscombe en Para saber más del apartado 3.1).

2. Es importante saber que la correlación es una medida que nos da la relación lineal que hay entre los datos. De una correlación nula o muy baja no siempre podemos concluir que los datos no están relacionados entre sí, sino que no hay correlación lineal. Los datos podrían estar fuertemente relacionados de otra manera (siguiendo una ley cuadrática, por ejemplo).

Para evitar este último contratiempo, siempre conviene mirar el diagrama de dispersión antes de sacar conclusiones (ver el siguiente Para saber más).

Icono IDevice Importante

La correlación lineal se define por .

Es un valor que está siempre entre -1 y 1: .

Es invariante. Si las variables se miden con otras unidades de medida, la correlación no varía.

Si r>0, la relación entre X e Y es directa, y si r<0 inversa.

Si r está próxima a 0 las variables no están correlacionadas (o la relación lineal que pueda haber entre ellas es muy débil), y si r está próxima a 1 o a -1, la relación lineal es fuerte o muy fuerte.


Icono de iDevice Ejemplo o ejercicio resuelto
Calcula la correlación lineal del ejemplo de la sección anterior:
X 4 5 6 7 8 9 10 11
Y 1,4 1,3 1,4 1,5 1,5 1,6 1,6 1,7

Recordemos que habíamos calculado ya las medias de X, Y así como la covarianza. para calcular la correlación lineal, nos hace falta calcular también las desviaciones típicas de X e Y, por lo que añadiremos a la tabla de la covarianza las columnas de Xi2 e Yi2.

En el siguiente applet puedes ver los detalles de los cálculos, fíjate que la correlación lineal es 0,94, por lo que hay una relación fuerte entre X e Y de tipo lineal.

También puedes aprovecharlo para calcular la correlación en otros ejercicios. La tabla admite hasta 30 datos, recuerda que los signos de interrogación son importantes, indican al applet que debe ignorar esa casilla, en caso contrario el programa cree que se ha introducido un 0.

 


Please install Java 1.4 (or later) to use this page.
Icono de iDevice AV - Reflexión

Calcula la correlación de las distribuciones AB, AC, BC del apartado 1.1:

A: 5, 5, 9, 6, 3, 6, 3, 3, 8, 5, 2, 5, 4, 7, 3, 7, 4.

B: 4, 5, 8, 8, 6, 7, 4, 7, 8, 6, 4, 5, 5, 8, 4, 8, 4.

C: 7, 6, 8, 9, 5, 6, 7, 6, 5, 6, 3, 6, 6, 8, 6, 8, 7.

En el apartado anterior habías calculado ya las medias y la covarianza. Deberás calcular , pues, las desviaciones típicas. Utiliza el applet anterior una vez tengas ya un resultado. Las soluciones las encontrarás pulsando el botón.

Icono IDevice Para saber más

Larry Gardner. Wikimedia

(Dominio Público)

Correlación y causalidad

La correlación nos indica la existencia de una cierta relación entre dos variables, pero, por sí sola, no ofrece garantías de una dependencia estricta del tipo causa-efecto. Son muchas las variables que pueden asociarse, y pueden no tener nada en común a pesar de estar correlacionadas. Esto suele ocurrir cuando hay una variable oculta que influye simultáneamente en ambas, cuya existencia podemos ignorar. Incluso entre los estadísticos no es fácil en ocasiones determinar si la correlación entre dos variables implica la causalidad de una sobre otra.

Para poder afirmar la existencia de una relación de causa-efecto es necesario establecer experimentos muy bien planteados y que cubran todas las posibilidades, lo que no es nada fácil. Es muy famosa la polémica que hubo, alrededor de 1960, sobre si el tabaco podía provocar el cáncer de pulmón. A pesar de que, en esos años, empezaron a proliferar los estudios acerca de la causalidad, muchos estadísticos se negaron a aceptar la culpabilidad del tabaco, no porque no existiera, sino porque lo que no se podía era garantizar ésta a partir de dichos estudios. Fue necesario ir descartando posibilidades y plantear investigaciones mucho más precisas que permitieran establecer claramente la influencia de una variable en la otra.

Finalmente, en 1990 se establecieron unas reglas muy rígidas y precisas que debían cumplir las investigaciones científicas para poder aceptar sus conclusiones. Revisando los estudios de 1960 resultó que ninguno cumplía estas normas.

Aún con eso, en 1991 se publicó un trabajo en el que se afirmaba que las personas zurdas vivían menos, de media, que las diestras. Los datos comparaban el porcentaje de zurdos en la población total, con el porcentaje entre la población a partir de cierta edad. La explicación que se aceptó para rebatir la tesis del estudio fue que entre la población de más edad había menos zurdos declarados, debido al hecho que, hasta hace unos años, en las escuelas se hacía escribir con la derecha a muchos niños zurdos, con lo que de mayores pasaban a formar parte en las estadísticas de la población de diestros, en este caso, forzados (en la imagen, un célebre jugador de béisbol que lanzaba con la derecha y bateaba con la izquierda).