CORRELACIÓN LINEAL
En una distribución bidimensional puede ocurrir que las dos
variables guarden algún tipo de relación entre sí.
Por ejemplo, si se analiza la estatura y el peso de los
alumnos de una clase es muy posible que exista relación entre ambas variables:
mientras más alto sea el alumno, mayor será su peso.
El coeficiente de correlación lineal mide el grado de
intensidad de esta posible relación entre las variables. Este coeficiente se
aplica cuando la relación que puede existir entre las variables es lineal (es
decir, si representáramos en un gráfico los pares de valores de las dos
variables la nube de puntos se aproximaría a una recta).
Para ver, por tanto, si se puede utilizar el coeficiente de
correlación lineal, lo mejor es representar los pares de valores en un gráfico
y ver qué forma describe.
El coeficiente de correlación lineal se calcula aplicando la
siguiente fórmula:
Es decir:
Numerador: se denomina covarianza y se calcula de la siguiente
manera: en cada par de valores (x,y) se multiplica la "x" menos su
media, por la "y" menos su media. Se suma el resultado obtenido de
todos los pares de valores y este resultado se divide por el tamaño de la
muestra.
Denominador: se calcula el producto de las varianzas de
"x" y de "y", y a este producto se le calcula la raíz
cuadrada.
Si "r" > 0, la correlación lineal es positiva (si sube
el valor de una variable sube el de la otra). La correlación es tanto más
fuerte cuanto más se aproxime a 1.
Por ejemplo: altura y peso: los
alumnos más altos suelen pesar más.
Si "r" < 0, la correlación lineal es negativa (si sube
el valor de una variable disminuye el de la otra). La correlación negativa es
tanto más fuerte cuanto más se aproxime a -1.
Por ejemplo: peso y velocidad:
los alumnos más gordos suelen correr menos.
Si "r" = 0, no existe correlación lineal entre las
variables. Aunque podría existir otro tipo de correlación (parabólica,
exponencial, etc.)
EJEMPLO:
Alumno
|
Estatura
|
Peso
|
Alumno
|
Estatura
|
Peso
|
Alumno
|
Estatura
|
Peso
|
x
|
x
|
x
|
x
|
x
|
x
|
x
|
x
|
x
|
Alumno 1
|
1,25
|
32
|
Alumno 11
|
1,25
|
33
|
Alumno 21
|
1,25
|
33
|
Alumno 2
|
1,28
|
33
|
Alumno 12
|
1,28
|
35
|
Alumno 22
|
1,28
|
34
|
Alumno 3
|
1,27
|
34
|
Alumno 13
|
1,27
|
34
|
Alumno 23
|
1,27
|
34
|
Alumno 4
|
1,21
|
30
|
Alumno 14
|
1,21
|
30
|
Alumno 24
|
1,21
|
31
|
Alumno 5
|
1,22
|
32
|
Alumno 15
|
1,22
|
33
|
Alumno 25
|
1,22
|
32
|
Alumno 6
|
1,29
|
35
|
Alumno 16
|
1,29
|
34
|
Alumno 26
|
1,29
|
34
|
Alumno 7
|
1,30
|
34
|
Alumno 17
|
1,30
|
35
|
Alumno 27
|
1,30
|
34
|
Alumno 8
|
1,24
|
32
|
Alumno 18
|
1,24
|
32
|
Alumno 28
|
1,24
|
31
|
Alumno 9
|
1,27
|
32
|
Alumno 19
|
1,27
|
33
|
Alumno 29
|
1,27
|
35
|
Alumno 10
|
1,29
|
35
|
Alumno 20
|
1,29
|
33
|
Alumno 30
|
1,29
|
34
|
Aplicamos la fórmula:
r = (1/30) *
(0,826)
(((1/30)*(0,02568)) *
((1/30)*(51,366)))^(1/2)
Nos da como resultado r =0,719
Por lo tanto, la correlación
existente entre estas dos variables es elevada (0,7) y de signo positivo.
REGRESIÓN LINEAL
Si la
nube de puntos en una representación gráfica sigue un patrón lineal, como se
denota en el ejemplo siguiente:
El coeficiente
de correlación lineal nos permite determinar si, efectivamente, existe relación
entre las dos variables. Una vez que se concluye que sí existe relación, la
regresión nos permite definir la recta que mejor se ajusta a esta nube de
puntos.
Una recta
viene definida por la siguiente fórmula:
y = a + bx
Donde
"y" sería la variable dependiente, es decir, aquella que viene
definida a partir de la otra variable "x" (variable independiente).
Para definir la recta hay que determinar los valores de los parámetros
"a" y "b":
El
parámetro "a" es el valor que toma la variable dependiente
"y", cuando la variable independiente "x" vale 0, y es el
punto donde la recta cruza el eje vertical.
El
parámetro "b" determina la pendiente de la recta, su grado de
inclinación.
La
regresión lineal nos permite calcular el valor de estos dos parámetros,
definiendo la recta que mejor se ajusta a esta nube de puntos.
El
parámetro "b" viene determinado por la siguiente fórmula:
El parámetro "a" viene
determinado por:
EJEMPLO:
Alumno
|
Estatura
|
Peso
|
Alumno
|
Estatura
|
Peso
|
Alumno
|
Estatura
|
Peso
|
x
|
x
|
x
|
x
|
x
|
x
|
x
|
x
|
x
|
Alumno 1
|
1,25
|
32
|
Alumno 11
|
1,25
|
33
|
Alumno 21
|
1,25
|
33
|
Alumno 2
|
1,28
|
33
|
Alumno 12
|
1,28
|
35
|
Alumno 22
|
1,28
|
34
|
Alumno 3
|
1,27
|
34
|
Alumno 13
|
1,27
|
34
|
Alumno 23
|
1,27
|
34
|
Alumno 4
|
1,21
|
30
|
Alumno 14
|
1,21
|
30
|
Alumno 24
|
1,21
|
31
|
Alumno 5
|
1,22
|
32
|
Alumno 15
|
1,22
|
33
|
Alumno 25
|
1,22
|
32
|
Alumno 6
|
1,29
|
35
|
Alumno 16
|
1,29
|
34
|
Alumno 26
|
1,29
|
34
|
Alumno 7
|
1,30
|
34
|
Alumno 17
|
1,30
|
35
|
Alumno 27
|
1,30
|
34
|
Alumno 8
|
1,24
|
32
|
Alumno 18
|
1,24
|
32
|
Alumno 28
|
1,24
|
31
|
Alumno 9
|
1,27
|
32
|
Alumno 19
|
1,27
|
33
|
Alumno 29
|
1,27
|
35
|
Alumno 10
|
1,29
|
35
|
Alumno 20
|
1,29
|
33
|
Alumno 30
|
1,29
|
34
|
El parámetro
"b" viene determinado por:
b =
|
(1/30) * 1,034
|
|
|
= 40,265
|
(1/30) * 0,00856
|
|
El parámetro
"a" por:
a = 33,1 - (40,265 *
1,262) = -17,714
|
Por lo tanto, la recta que
mejor se ajusta a esta serie de datos es:
y = -17,714
+ (40,265 * x)
Esta recta define un valor de la
variable dependiente (peso), para cada valor de la variable independiente
(estatura):
Estatura
|
Peso
|
x
|
x
|
1,20
|
30,6
|
1,21
|
31,0
|
1,22
|
31,4
|
1,23
|
31,8
|
1,24
|
32,2
|
1,25
|
32,6
|
1,26
|
33,0
|
1,27
|
33,4
|
1,28
|
33,8
|
1,29
|
34,2
|
1,30
|
34,6
|