sábado, 22 de noviembre de 2014

MìNIMOS CUADRADOS
Mínimos cuadrados es una técnica de análisis numérico enmarcada dentro de la optimización matemática, en la que, dados un conjunto de pares ordenados: variable independiente, variable dependiente, y una familia de funciones, se intenta encontrar la función continua
El procedimiento más objetivo para ajustar una recta a un conjunto de datos presentados en
un diagrama de dispersión se conoce como "el método de los mínimos cuadrados". La recta
resultante presenta dos características importantes:

1. Es nula la suma de las desviaciones verticales de los puntos a partir de la recta de ajuste
∑ (Y - Y) = 0.
2. Es mínima la suma de los cuadrados de dichas desviaciones. Ninguna otra recta daría
una suma menor de las desviaciones elevadas al cuadrado ∑ (Y - Y)² → 0
(mínima).
El procedimiento consiste entonces en minimizar los residuos al cuadrado Ci²






 
 ejemplos:





1. Una compañía de seguros considera que el número de vehículos (y) que circulan por una determinada autopista a más de 120 km/h , puede ponerse en función del número de accidentes (x) que ocurren en ella. Durante 5 días obtuvo los siguientes resultados:

a) Calcula el coeficiente de correlación lineal.
b) Si ayer se produjeron 6 accidentes, ¿cuántos vehículos podemos suponer que circulaban por la autopista a más de 120 km / h?
c) ¿Es buena la predicción?


Construimos una tabla con las columnas necesarias


Vemos las fórmulas que tenemos que aplicar para saber las columnas que necesitamos, a continuación se explica la forma de hacer esto:








jueves, 20 de noviembre de 2014




Coeficiente r de Pearson







Ejemplos de diagramas de dispersión con diferentes valores del coeficiente de correlación (ρ)
En estadística, el coeficiente de correlación de Pearson es una medida de la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas.


 EJEMPLO PARA CALCULAR LA  R DE PEARSON
En un estudio sobre la síntesis de proteínas en el oocito de la rara Xenopus, un biólogo inyecta leucina etiquetada como radiactiva en oocitos individuales. En distintos instantes de tiempo posteriores a la inyección, se realizan medidas de radiactividad y se calcula la cantidad de leucinaque se incorporo a la proteína. Los resultados se presentan en la siguiente tabla, cada valor de leucina es el contenido de leucina registrado en los oocitos .


r= 0.992

Interpretación


Varios grupos de puntos (xy), con el coeficiente de correlación para cada grupo. Nótese que la correlación refleja la no linealidad y la dirección de la relación lineal. En la figura del centro, la varianza de y es nula, por lo que la correlación es indeterminada.
El valor del índice de correlación varía en el intervalo [-1,1]:
       Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante.
       Si 0 < r < 1, existe una correlación positiva.
       Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables son independientes: pueden existir todavía relaciones no lineales entre las dos variables.
       Si -1 < r < 0, existe una correlación negativa.
       Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en proporción constante.




CORRELACIÓN LINEAL
En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de relación entre sí.
Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relación entre ambas variables: mientras más alto sea el alumno, mayor será su peso.
El coeficiente de correlación lineal mide el grado de intensidad de esta posible relación entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre las variables es lineal (es decir, si representáramos en un gráfico los pares de valores de las dos variables la nube de puntos se aproximaría a una recta).
Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es representar los pares de valores en un gráfico y ver qué forma describe.
El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula:
Es decir:

Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamaño de la muestra.
Denominador: se calcula el producto de las varianzas de "x" y de "y", y a este producto se le calcula la raíz cuadrada.
Si "r" > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra). La correlación es tanto más fuerte cuanto más se aproxime a 1.
Por ejemplo: altura y peso: los alumnos más altos suelen pesar más.
Si "r" < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlación negativa es tanto más fuerte cuanto más se aproxime a -1.
Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos.
Si "r" = 0, no existe correlación lineal entre las variables. Aunque podría existir otro tipo de correlación (parabólica, exponencial, etc.)



EJEMPLO:
Alumno
Estatura
Peso
Alumno
Estatura
Peso
Alumno
Estatura
Peso
x
x
x
x
x
x
x
x
x
Alumno 1
1,25
32
Alumno 11
1,25
33
Alumno 21
1,25
33
Alumno 2
1,28
33
Alumno 12
1,28
35
Alumno 22
1,28
34
Alumno 3
1,27
34
Alumno 13
1,27
34
Alumno 23
1,27
34
Alumno 4
1,21
30
Alumno 14
1,21
30
Alumno 24
1,21
31
Alumno 5
1,22
32
Alumno 15
1,22
33
Alumno 25
1,22
32
Alumno 6
1,29
35
Alumno 16
1,29
34
Alumno 26
1,29
34
Alumno 7
1,30
34
Alumno 17
1,30
35
Alumno 27
1,30
34
Alumno 8
1,24
32
Alumno 18
1,24
32
Alumno 28
1,24
31
Alumno 9
1,27
32
Alumno 19
1,27
33
Alumno 29
1,27
35
Alumno 10
1,29
35
Alumno 20
1,29
33
Alumno 30
1,29
34

Aplicamos la fórmula:
r =                                    (1/30) * (0,826)
                  (((1/30)*(0,02568)) * ((1/30)*(51,366)))^(1/2)
Nos da como resultado r =0,719
Por lo tanto, la correlación existente entre estas dos variables es elevada (0,7) y de signo positivo.








REGRESIÓN LINEAL
Si la nube de puntos en una representación gráfica sigue un patrón lineal, como se denota en el ejemplo siguiente:
El coeficiente de correlación lineal nos permite determinar si, efectivamente, existe relación entre las dos variables. Una vez que se concluye que sí existe relación, la regresión nos permite definir la recta que mejor se ajusta a esta nube de puntos.
Una recta viene definida por la siguiente fórmula:
y = a + bx
Donde "y" sería la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los parámetros "a" y "b":
El parámetro "a" es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical.
El parámetro "b" determina la pendiente de la recta, su grado de inclinación.
La regresión lineal nos permite calcular el valor de estos dos parámetros, definiendo la recta que mejor se ajusta a esta nube de puntos.
El parámetro "b" viene determinado por la siguiente fórmula:
El parámetro "a" viene determinado por:
a = ym - (b * xm)
EJEMPLO:
Alumno
Estatura
Peso
Alumno
Estatura
Peso
Alumno
Estatura
Peso
x
x
x
x
x
x
x
x
x
Alumno 1
1,25
32
Alumno 11
1,25
33
Alumno 21
1,25
33
Alumno 2
1,28
33
Alumno 12
1,28
35
Alumno 22
1,28
34
Alumno 3
1,27
34
Alumno 13
1,27
34
Alumno 23
1,27
34
Alumno 4
1,21
30
Alumno 14
1,21
30
Alumno 24
1,21
31
Alumno 5
1,22
32
Alumno 15
1,22
33
Alumno 25
1,22
32
Alumno 6
1,29
35
Alumno 16
1,29
34
Alumno 26
1,29
34
Alumno 7
1,30
34
Alumno 17
1,30
35
Alumno 27
1,30
34
Alumno 8
1,24
32
Alumno 18
1,24
32
Alumno 28
1,24
31
Alumno 9
1,27
32
Alumno 19
1,27
33
Alumno 29
1,27
35
Alumno 10
1,29
35
Alumno 20
1,29
33
Alumno 30
1,29
34
El parámetro "b" viene determinado por:
b =
(1/30) * 1,034

= 40,265
(1/30) * 0,00856

 El parámetro "a" por:
a = 33,1 - (40,265 * 1,262) = -17,714
Por lo tanto, la recta que mejor se ajusta a esta serie de datos es:
y = -17,714 + (40,265 * x)
Esta recta define un valor de la variable dependiente (peso), para cada valor de la variable independiente (estatura):

Estatura
Peso
x
x
1,20
30,6
1,21
31,0
1,22
31,4
1,23
31,8
1,24
32,2
1,25
32,6
1,26
33,0
1,27
33,4
1,28
33,8
1,29
34,2
1,30
34,6