Varianza y correlación
Se define la varianza como la media de los cuadrados de las diferencias de cada dato respecto de la media de la variable. Para evitar el sesgo en la estimación se utiliza en lugar de nn, el tamaño muestral n−1n−1, lo que tiene efecto sólo con tamaños muestrales pequeños.
s2x=var(x)=∑ni=1(xi−x¯)2n−1
Covarianza
Podemos extender el concepto de varianza a dos variables, de manera que hacemos que este estadístico sea proporcional al “cambio” en las dos variables. A partir del cálculo de la varianza podemos obtener fácilmente el de la covarianza.
cov(x,y)=∑ni=1(xi−x¯)(yi−y¯)n−1cov(x,y)=∑i=1n(xi−x¯)(yi−y¯)n−1
Vemos que la covarianza de una variable consigo misma es la varianza de esa variable.
cov(x,x)=∑ni=1(xi−x¯)(xi−x¯)(xi−x¯)2n−1=s2xcov(x,x)=∑i=1n(xi−x¯)(xi−x¯)⏞(xi−x¯)2n−1=sx2
Los principales problemas de la interpretación de los valores de la covarianza son:
- están expresados en el producto de las unidades de medida de ambas variables …
- no hay valor de referencia para comparar, no podemos determinar si un determinado valor de covarianza es grande o pequeño.
Correlación
Un estadístico semejante al anterior es el llamado coeficiente de correlación, que se diferencia de la covarianza en que está “corregido” por el producto de las desviaciones típicas de las variables.
r(x,y)=∑ni=1(xi−x¯)(yi−y¯)sxsyr(x,y)=∑i=1n(xi−x¯)(yi−y¯)sxsy
r(x,y)=cov(x,y)sxsyr(x,y)=cov(x,y)sxsy
Lógicamente el valor máximo que puede alcanzar la covarianza se da cuando las dos variables presentan los mismos valores, o se calcula la correlación para una misma variable.
r(x,x)=cov(x,x)sxsxr(x,x)=cov(x,x)sxsx
r(x,x)=s2xs2x=±1r(x,x)=sx2sx2=±1
El signo depende de si la variación se produce de forma directa o inversamente proporcional, un valor 0 para la correlación representa independencia.