Las pruebas de
bondad de ajuste nos permiten verificar la distribución especificada o
supuesta, de la muestra de una población. Esto nos sirve para conocer o
encontrar la distribución de probabilidad de una serie de datos, y así saber la
variabilidad que posee en su comportamiento, para ello la información debe
presentarse en tablas de frecuencia, para poder aplicar las pruebas de bondad
de ajuste.
Prueba de bondad de ajuste x2 (ji-cuadrada)
Esta prueba es
aplicable tanto para variables aleatorias discretas, como continuas. La
metodología a seguir es la siguiente:
1. Se colocan los n datos históricos en una tabla de frecuencia
de m intervalos,
obteniendo la frecuencia observada para cada intervalo i(FOi) . Después se calcula la media y la varianza de los
datos. $$m=\sqrt { n } $$ 2. Se propone una
distribución de probabilidad según la forma de la tabla de frecuencias del paso
anterior.
3. Mediante la integración de la distribución
propuesta f(x), multiplicada por el número total de datos, se calcula
una frecuencia esperada para cada intervalo (FEi). $$F(x)=\int _{ LI }^{ LS }{ f(x)dx }$$ Donde:
f(x): distribución
propuesta
LI: límite inferior
de cada intervalo
LS: límite superior
de cada intervalo
$${ FE }_{ i }=
n*F(x)$$ 4. Se realiza el cálculo del estimador, con la siguiente fórmula:
$$C=\sum _{ i=1 }^{
m }{ \frac { { \left( { FE }_{ i }-{ FO }_{ i } \right) }^{ 2 } }{ { FE
}_{ i } } }$$ 5. Si C ≤ x2 con m-k-1
grados de libertad (k=número de parámetros estimados de la distribución) y a un
nivel de confianza 1-α, se acepta la hipótesis de que la información histórica
sigue la distribución propuesta en el paso 2.
Ejemplo:
La
siguiente muestra de tamaño 50 ha sido obtenida de una población que registra
la vida útil (en unidades de tiempo) de baterías alcalinas tipo AAA. Pruébese
la hipótesis nula de que la variable aleatoria vida útil de las baterías sigue
una distribución exponencial negativa. Considérese un nivel de significancia α=0.05
8.223
|
0.836
|
2.634
|
4.778
|
0.406
|
0.517
|
2.330
|
2.563
|
0.511
|
6.426
|
2.230
|
3.810
|
1.624
|
1.507
|
2.343
|
1.458
|
0.774
|
0.023
|
0.225
|
3.214
|
2.920
|
0.968
|
0.333
|
4.025
|
0.538
|
0.234
|
3.323
|
3.334
|
2.325
|
7.514
|
0.761
|
4.490
|
1.514
|
1.064
|
5.088
|
1.401
|
0.294
|
3.491
|
2.921
|
0.334
|
1.064
|
0.186
|
2.782
|
3.246
|
5.587
|
0.685
|
1.725
|
1.267
|
1.702
|
1.849
|
Solución:
Paso
1. Colocar los datos en una tabla de frecuencia, en m intervalos $$m=\sqrt
{ 50 } =7.07$$
i
|
Clase
|
Frecuencia observada FO
|
1
|
0 - 1.18
|
18
|
2
|
1.18 - 2.36
|
13
|
3
|
2.36 - 3.54
|
10
|
4
|
3.54 - 4.72
|
3
|
5
|
4.72 - 5.90
|
3
|
6
|
5.90 - 7.08
|
1
|
7
|
7.08 - 8.26
|
2
|
Se
reagrupan los intervalos para que FO sea al menos de 5. λ=2
i
|
Clase
|
Frecuencia observada FO
|
1
|
0 - 1.18
|
18
|
2
|
1.18 - 2.36
|
13
|
3
|
2.36 - 3.54
|
10
|
4
|
3.54 – 8.26
|
9
|
Paso
2. La distribución propuesta es exponencial negativa , cuya
función es: $$f(x)={ \frac { 1 }{ \lambda
} e }^{ \frac { -x }{ \lambda
} }$$
Integrando
la función: $$F(x)=\int _{ LI }^{ LS }{ { \frac { 1 }{ \lambda } e }^{ \frac { -x }{ \lambda } } } $$
que nos queda: $$ F(x)=1-{ e }^{
-\frac { x }{ \lambda } }$$
Paso
3. Cálculo de FEi
i
|
Clase
|
Frecuencia observada FO
|
F(x)
|
Frecuencia esperada FE
|
1
|
0 - 1.18
|
18
|
0.4456
|
22.6
|
2
|
1.18 - 2.36
|
13
|
0.2470
|
12.4
|
3
|
2.36 - 3.54
|
10
|
0.1369
|
7
|
4
|
3.54 – 8.26
|
9
|
0.1543
|
8
|
Para α=0.05, y v=4-1-1=2 grados de libertad
→ x2 =5.99
Paso 4. Cálculo
de C $$C=\frac { { \left( 22.6-18 \right)
}^{ 2 } }{ 22.6 } +\frac { { \left( 12.4-13 \right) }^{ 2 } }{ 12.4 } +\frac { { \left( 7-10
\right) }^{ 2 } }{ 7 } +\frac { { \left(
8-9 \right) }^{ 2 } }{ 8 } =2.376$$
Dado que 2.37 ≤ 5.99, se dice que no hay
evidencia suficiente para rechazar la hipótesis nula de que la muestra proviene
de una distribución exponencial con media=2.
Prueba de bondad de ajuste de Kolmogorov-Smirnov
Esta prueba trabaja con la distribución de probabilidad acumulada, y nos
permite encontrar el tipo de distribución de probabilidad de una serie de
datos. Su metodología es la siguiente:
1. Se colocan los n datos históricos en una tabla de frecuencia
de m intervalos,
obteniendo la frecuencia observada para cada intervalo i(FOi) . Después se calcula la media y la varianza de los
datos. $$m=\sqrt { n } $$ 2. Se obtiene la probabilidad
observada de cada intervalo i(POi)
dividiendo la frecuencia observada de cada intervalo, por el número total de
datos. $$PO_{ i }=\frac { FO_{ i } }{ n }$$ 3. Se calcula la probabilidad
acumulada observada de cada intervalo (PAOi) del paso 2.
4. De acuerdo con la tabla de frecuencias del paso 1, se propone
una distribución de probabilidad.
5. Se integra la distribución propuesta f(x), y se obtiene la
probabilidad esperada de cada intervalo (PEi) .
6. Se calcula la probabilidad acumulada esperada de cada
intervalo de clase (PAEi).
7. Se calcula el valor absoluto de la diferencia entre (PAOi) y (PAEi) para
cada intervalo, la máxima diferencia se llamará DM.
8. El estimador DM se compara con un valor límite con n datos y a un
nivel de confianza 1-α. Si DM ≤ valor límite se acepta la hipótesis de que la información histórica
sigue la distribución propuesta en el paso 4.
Ejemplo
Consideremos los siguientes N (N = 50)
datos que se sospechan provienen de una distribución exponencial:
4.8836
|
2.371
|
5.4863
|
0.4128
|
0.514
|
3.5525
|
0.01
|
0.1258
|
0.6072
|
0.0385
|
1.87
|
2.0893
|
0.3445
|
2.1685
|
2.1992
|
0.78
|
3.5711
|
1.0869
|
1.6796
|
4.9266
|
3.3049
|
0.3198
|
0.8513
|
0.8234
|
0.3551
|
0.2849
|
1.9687
|
0.9654
|
0.8164
|
3.9926
|
6.6115
|
2.0679
|
0.7423
|
0.822
|
7.6054
|
0.0406
|
6.295
|
8.3504
|
2.0288
|
1.51
|
2.2095
|
8.9253
|
0.4075
|
5.7358
|
0.1409
|
6.0335
|
0.2485
|
2.4816
|
0.6662
|
1.0702
|
Pruébese
la hipótesis nula de que los datos siguen una distribución exponencial. Considérese
un nivel de significancia α=0.05
Solución
Paso 1. Colocar los datos en una tabla de frecuencia, en m
intervalos, y obtener la frecuencia observada FO $$m=\sqrt { 50 } =7.07$$
i
|
Clase
|
Frecuencia observada FO
|
1
|
0 - 1.28
|
24
|
2
|
1.28 - 2.56
|
12
|
3
|
2.56 - 3.84
|
3
|
4
|
3.84 - 5.12
|
3
|
5
|
5.12 - 6.40
|
4
|
6
|
6.40 - 7.68
|
2
|
7
|
7.68 - 8.96
|
2
|
Paso 2. Obtener la probabilidad observada PO, y
Paso 3. Calcular la probabilidad acumulada observada PAO
i
|
Clase
|
Frecuencia observada FO
|
Probabilidad observada PO
|
Probabilidad Acumulada observada PAO
|
1
|
0 - 1.28
|
24
|
0.48
|
0.48
|
2
|
1.28 - 2.56
|
12
|
0.24
|
0.72
|
3
|
2.56 - 3.84
|
3
|
0.06
|
0.78
|
4
|
3.84 - 5.12
|
3
|
0.06
|
0.84
|
5
|
5.12 - 6.40
|
4
|
0.08
|
0.92
|
6
|
6.40 - 7.68
|
2
|
0.04
|
0.96
|
7
|
7.68 - 8.96
|
2
|
0.04
|
1
|
Paso 4. El problema nos dice que se sospecha que los datos son
exponenciales, cuya función es: $$f(x)={ \frac { 1 }{ \lambda } e }^{ \frac { -x }{ \lambda } }$$
Paso
5. Integrar la función $$F(x)=\int _{ LI }^{
LS }{ { \frac { 1 }{ \lambda } e }^{
\frac { -x }{ \lambda } } } $$ que nos queda: $$ F(x)=1-{ e }^{ -\frac { x }{ \lambda } }$$
Paso
6. Cálculo de la probabilidad acumulada
esperada. $$ F(x)=1-{ e }^{
-\frac { LS }{ \lambda } }$$
i
|
Clase
|
Probabilidad Acumulada observada PAO
|
Probabilidad Acumulada esperada PAE
|
1
|
0 - 1.28
|
0.48
|
0.424
|
2
|
1.28 - 2.56
|
0.72
|
0.668
|
3
|
2.56 - 3.84
|
0.78
|
0.809
|
4
|
3.84 - 5.12
|
0.84
|
0.890
|
5
|
5.12 - 6.40
|
0.92
|
0.937
|
6
|
6.40 - 7.68
|
0.96
|
0.963
|
7
|
7.68 - 8.96
|
1
|
0.979
|
Paso 7. Cálculo del valor absoluto de la diferencia entre (PAOi) y (PAEi) para
cada intervalo
i
|
Clase
|
|PEA-POA|
|
1
|
0 - 1.28
|
0.05703
|
2
|
1.28 - 2.56
|
0.05296
|
3
|
2.56 - 3.84
|
0.02787
|
4
|
3.84 - 5.12
|
0.04914
|
5
|
5.12 - 6.40
|
0.01603
|
6
|
6.40 - 7.68
|
0.00309
|
7
|
7.68 - 8.96
|
0.02130
|
Donde 0.05703 es la
máxima diferencia, por tanto DM=0.05703.
Para α=0.05, y n=50
datos → valor límite =1.094
Dado que 0.05703 ≤
1.084, se dice que no hay evidencia suficiente para rechazar la hipótesis nula
de que la muestra proviene de una distribución exponencial con media=2.32
Opinión/Conclusión:
Ambas pruebas nos permiten verificar la distribución supuesta que siguen cierto datos, la fácil aplicación de ambas dependerá en gran manera de la función de densidad de distribución con la que se esté trabajando, así como los pasos descritos, ya que no siempre es posible la integración de dicha función. Además de que la prueba de Kolmogorov-Smirnov puede ser más eficiente al utilizar la distribución de probabilidad acumulada.Referencias:
ü Coss,R (1993). Simulación, un enfoque práctico. México: Limusa
No hay comentarios.:
Publicar un comentario