martes, 5 de abril de 2016

Pruebas de bondad de ajuste

Las pruebas de bondad de ajuste nos permiten verificar la distribución especificada o supuesta, de la muestra de una población. Esto nos sirve para conocer o encontrar la distribución de probabilidad de una serie de datos, y así saber la variabilidad que posee en su comportamiento, para ello la información debe presentarse en tablas de frecuencia, para poder aplicar las pruebas de bondad de ajuste.

Prueba de bondad de ajuste x(ji-cuadrada)


Esta prueba es aplicable tanto para variables aleatorias discretas, como continuas. La metodología a seguir es la siguiente:

1. Se colocan los n datos históricos en una tabla de frecuencia de m intervalos, obteniendo la frecuencia observada para cada intervalo i(FOi) . Después se calcula la media y la varianza de los datos. $$m=\sqrt { n } $$  2. Se propone una distribución de probabilidad según la forma de la tabla de frecuencias del paso anterior.

3. Mediante la integración de la distribución propuesta f(x), multiplicada por el número total de datos, se calcula una frecuencia esperada para cada intervalo (FEi). $$F(x)=\int _{ LI }^{ LS }{ f(x)dx }$$ Donde:
f(x): distribución propuesta
LI: límite inferior de cada intervalo
LS: límite superior de cada intervalo
$${ FE }_{ i }= n*F(x)$$ 4. Se realiza el cálculo del estimador, con la siguiente fórmula:

$$C=\sum _{ i=1 }^{ m }{ \frac { { \left( { FE }_{ i }-{ FO }_{ i } \right)  }^{ 2 } }{ { FE }_{ i } }  }$$ 5. Si  C ≤ x2 con m-k-1 grados de libertad (k=número de parámetros estimados de la distribución) y a un nivel de confianza 1-α, se acepta la hipótesis de que la información histórica sigue la distribución propuesta en el paso 2.

Ejemplo:

La siguiente muestra de tamaño 50 ha sido obtenida de una población que registra la vida útil (en unidades de tiempo) de baterías alcalinas tipo AAA. Pruébese la hipótesis nula de que la variable aleatoria vida útil de las baterías sigue una distribución exponencial negativa. Considérese un nivel de significancia α=0.05

8.223
0.836
2.634
4.778
0.406
0.517
2.330
2.563
0.511
6.426
2.230
3.810
1.624
1.507
2.343
1.458
0.774
0.023
0.225
3.214
2.920
0.968
0.333
4.025
0.538
0.234
3.323
3.334
2.325
7.514
0.761
4.490
1.514
1.064
5.088
1.401
0.294
3.491
2.921
0.334
1.064
0.186
2.782
3.246
5.587
0.685
1.725
1.267
1.702
1.849

Solución:

Paso 1. Colocar los datos en una tabla de frecuencia, en m intervalos $$m=\sqrt { 50 } =7.07$$
i
Clase
Frecuencia observada FO
1
0 - 1.18
18
2
1.18 - 2.36
13
3
2.36 - 3.54
10
4
3.54 - 4.72
3
5
4.72 - 5.90
3
6
5.90 - 7.08
1
7
7.08 - 8.26
2

Se reagrupan los intervalos para que FO sea al menos de 5. λ=2

i
Clase
Frecuencia observada FO
1
0 - 1.18
18
2
1.18 - 2.36
13
3
2.36 - 3.54
10
4
3.54 – 8.26
9

Paso 2. La distribución propuesta es exponencial negativa , cuya función es: $$f(x)={ \frac { 1 }{ \lambda  } e }^{ \frac { -x }{ \lambda  }  }$$
Integrando la función: $$F(x)=\int _{ LI }^{ LS }{ { \frac { 1 }{ \lambda  } e }^{ \frac { -x }{ \lambda  }  } } $$ que nos queda: $$ F(x)=1-{ e }^{ -\frac { x }{ \lambda  }  }$$

Paso 3. Cálculo de FEi

i
Clase
Frecuencia observada FO
F(x)
Frecuencia esperada FE
1
0 - 1.18
18
0.4456
22.6
2
1.18 - 2.36
13
0.2470
12.4
3
2.36 - 3.54
10
0.1369
7
4
3.54 – 8.26
9
0.1543
8

Para α=0.05, y v=4-1-1=2 grados de libertad → x2 =5.99

Paso 4. Cálculo de C $$C=\frac { { \left( 22.6-18 \right)  }^{ 2 } }{ 22.6 } +\frac { { \left( 12.4-13 \right)  }^{ 2 } }{ 12.4 } +\frac { { \left( 7-10 \right)  }^{ 2 } }{ 7 } +\frac { { \left( 8-9 \right)  }^{ 2 } }{ 8 } =2.376$$

Dado que 2.37 ≤ 5.99, se dice que no hay evidencia suficiente para rechazar la hipótesis nula de que la muestra proviene de una distribución exponencial con media=2.


Prueba de bondad de ajuste de Kolmogorov-Smirnov


Esta prueba trabaja con la distribución de probabilidad acumulada, y nos permite encontrar el tipo de distribución de probabilidad de una serie de datos. Su metodología es la siguiente:

1. Se colocan los n datos históricos en una tabla de frecuencia de m intervalos, obteniendo la frecuencia observada para cada intervalo i(FOi) . Después se calcula la media y la varianza de los datos. $$m=\sqrt { n } $$  2. Se obtiene la probabilidad observada de cada intervalo i(POi)  dividiendo la frecuencia observada de cada intervalo, por el número total de datos. $$PO_{ i }=\frac { FO_{ i } }{ n }$$ 3. Se calcula la probabilidad acumulada observada de cada intervalo (PAOi)   del paso 2.

4. De acuerdo con la tabla de frecuencias del paso 1, se propone una distribución de probabilidad.

5. Se integra la distribución propuesta f(x), y se obtiene la probabilidad esperada de cada intervalo (PEi) .

6. Se calcula la probabilidad acumulada esperada de cada intervalo de clase (PAEi).

7. Se calcula el valor absoluto de la diferencia entre (PAOi) y (PAEi) para cada intervalo, la máxima diferencia se llamará DM.
8. El estimador DM se compara con un valor límite con n datos y a un nivel de confianza 1-α. Si DM valor límite se acepta la hipótesis de que la información histórica sigue la distribución propuesta en el paso 4.

Ejemplo


Consideremos los siguientes N (N = 50) datos que se sospechan provienen de una distribución exponencial:

4.8836
2.371
5.4863
0.4128
0.514
3.5525
0.01
0.1258
0.6072
0.0385
1.87
2.0893
0.3445
2.1685
2.1992
0.78
3.5711
1.0869
1.6796
4.9266
3.3049
0.3198
0.8513
0.8234
0.3551
0.2849
1.9687
0.9654
0.8164
3.9926
6.6115
2.0679
0.7423
0.822
7.6054
0.0406
6.295
8.3504
2.0288
1.51
2.2095
8.9253
0.4075
5.7358
0.1409
6.0335
0.2485
2.4816
0.6662
1.0702

Pruébese la hipótesis nula de que los datos siguen una distribución exponencial. Considérese un nivel de significancia α=0.05

Solución

Paso 1. Colocar los datos en una tabla de frecuencia, en m intervalos, y obtener la frecuencia observada FO $$m=\sqrt { 50 } =7.07$$

i
Clase
Frecuencia observada FO
1
0 - 1.28
24
2
1.28 - 2.56
12
3
2.56 - 3.84
3
4
3.84 - 5.12
3
5
5.12 - 6.40
4
6
6.40 - 7.68
2
7
7.68 - 8.96
2

Paso 2. Obtener la probabilidad observada PO, y
Paso 3. Calcular la probabilidad acumulada observada PAO

i
Clase
Frecuencia observada FO
Probabilidad observada PO
Probabilidad Acumulada observada PAO
1
0 - 1.28
24
0.48
0.48
2
1.28 - 2.56
12
0.24
0.72
3
2.56 - 3.84
3
0.06
0.78
4
3.84 - 5.12
3
0.06
0.84
5
5.12 - 6.40
4
0.08
0.92
6
6.40 - 7.68
2
0.04
0.96
7
7.68 - 8.96
2
0.04
1

Paso 4. El problema nos dice que se sospecha que los datos son exponenciales, cuya función es: $$f(x)={ \frac { 1 }{ \lambda  } e }^{ \frac { -x }{ \lambda  }  }$$

Paso 5. Integrar la función $$F(x)=\int _{ LI }^{ LS }{ { \frac { 1 }{ \lambda  } e }^{ \frac { -x }{ \lambda  }  } } $$ que nos queda: $$ F(x)=1-{ e }^{ -\frac { x }{ \lambda  }  }$$
Paso 6. Cálculo de la probabilidad acumulada esperada. $$ F(x)=1-{ e }^{ -\frac { LS }{ \lambda  }  }$$
i
Clase
Probabilidad Acumulada observada PAO
Probabilidad Acumulada esperada PAE
1
0 - 1.28
0.48
0.424
2
1.28 - 2.56
0.72
0.668
3
2.56 - 3.84
0.78
0.809
4
3.84 - 5.12
0.84
0.890
5
5.12 - 6.40
0.92
0.937
6
6.40 - 7.68
0.96
0.963
7
7.68 - 8.96
1
0.979

Paso 7. Cálculo del valor absoluto de la diferencia entre (PAOi) y (PAEi) para cada intervalo

i
Clase
|PEA-POA|
1
0 - 1.28
0.05703
2
1.28 - 2.56
0.05296
3
2.56 - 3.84
0.02787
4
3.84 - 5.12
0.04914
5
5.12 - 6.40
0.01603
6
6.40 - 7.68
0.00309
7
7.68 - 8.96
0.02130

Donde 0.05703 es la máxima diferencia, por tanto DM=0.05703.
Para α=0.05, y n=50 datos → valor límite =1.094

Dado que 0.05703 ≤ 1.084, se dice que no hay evidencia suficiente para rechazar la hipótesis nula de que la muestra proviene de una distribución exponencial con media=2.32

Opinión/Conclusión:

Ambas pruebas nos permiten verificar la distribución supuesta que siguen cierto datos, la  fácil aplicación de ambas dependerá en gran manera de la función de densidad de distribución con la que se esté trabajando, así como los pasos descritos, ya que no siempre es posible la integración de dicha función. Además de que la prueba de Kolmogorov-Smirnov puede ser más eficiente al utilizar la distribución de probabilidad acumulada.


Referencias:

ü  Coss,R (1993). Simulación, un enfoque práctico. México: Limusa


No hay comentarios.:

Publicar un comentario