Statystyka matematyczna. Wykład VI. e-mail:e.kozlovski@pollub.pl
Spis treści 1 Testy zgodności 2 Test Shapiro-Wilka Test Kołmogorowa - Smirnowa Test Lillieforsa Test Jarque-Bera
Testy zgodności Niech x 1, x 2,..., x n będzie próbką pobraną z populacji generalnej, w której dystrybuanta zmiennej losowej X nie jest znana. Hipotezy dotyczące postaci rozkładu badanej populacji nazywamy testami zgodności. Na poziomie istotności α konstrujemy hipotezę roboczą H 0 : F X (x) = F (x) (dystrybuanta badanej cechy X jest F (x) rozkładem teoretycznym) lub też H 0 : f X (x) = f (x) (funkcja gęstości badanej cechy X jest f (x)). Dla rozkładu skokowego hipoteza robocza H 0 : P (X = x i ) = p i, i = 1, 2,..., k
Jako hipotezę alternatywną przyjmujemy: dla rozkładu ciągłego H 1 : F X (x) F (x), dla rozkładu skokowego H 1 : P (X = x i ) p i, i = 1, 2,..., k.
Testy zgodności jest podstawowym testem, który służy do weryfikacji zgodności rozkładu empirycznego P (X = x i ) = ni n, i = 1, 2,..., k z rozkładem teoretycznym P (X = x i ) = p i, i = 1, 2,..., k. Najczęściej jest stosowany do rozkładów typu skokowego. Statystyka χ 2 = k (n i np i ) 2 j=1 ma rozkład χ 2 o k 1 stopniach swobody. Z tablic rozkładu χ 2 odczytujemy wartość krytyczną χ 2 (k l 1, 1 α) kwantyl rzędu 1 α o k l 1 stopniach swobody, gdzie l oznacza liczbę nieznanych parametrów rozkładu teoretycznego. Jeżeli χ 2 < χ 2 (k l 1, 1 α) to na poziomie istotności α nie ma podstaw do odrzucenia hipotezy roboczej H 0, jeżeli natomiast χ 2 χ 2 (k l 1, 1 α) to hipotezę roboczą H 0 odrzucamy na korzyść hipotezy alternatywnej H 1. np i
Przykład 1. Niech zmienna losowa X reprezentuje liczbę dni bezawaryjnej pracy obrabiarki x i 0 1 2 3 4 5 n i 15 18 23 22 15 7 Na poziomie istotności 0.1 zweryfikować hipotezę że zmienna losowa X ma rozkład rownomierny. W pakiecie powyższe zadanie rozwiązujemy w sposób następujący: > x< c(15, 18, 22, 23, 15, 7) > chisq.test(x, p = rep(1/6, 6)) Chi-squared test for given probabilities data: x X-squared = 10.16, df = 5, p-value = 0.07083 Wobec powyższego, na poziomie istotności 0.1 odrzucamy hipotezę roboczą na korzyść hipotezy alternatywnej: rozkład empiryczny istotnie się róźni od rozkładu równomiernego.
Test Kołmogorowa jest jednym z podstawowych testów, który służy do weryfikacji zgodności rozkładu empirycznego z rozkładem teoretycznym typu ciągłego. Statystyka λ = nd n, gdzie D n = sup F X (x) F (x), <x< ma rozkład asymptotycznie zbieżny do rozkładu Kołmogorowa dla n. Dystrybuantę empiryczną wyznaczamy w sposób następujący F X (x) = 1 n card {x i : x i < x} = 1 n max { i : x (i) < x }, gdzie x (1) x (2)... x (n) jest ciągiem uporządkowanym.
Dla prób o liczebności n 100 z tablic dla rozkładu granicznego Kołmogorowa odczytujemy wartość krytyczną λ (1 α) kwantyl rzędu 1 α. Jeżeli λ < λ (1 α) to na poziomie istotności α nie ma podstaw do odrzucenia hipotezy roboczej H 0, jeżeli natomiast λ λ (1 α) to hipotezę roboczą H 0 odrzucamy na korzyść hipotezy alternatywnej H 1. Dla prób o liczebności n < 100 z tablic dla rozkładu Kołmogorowa odczytujemy wartość krytyczną λ (n, 1 α) kwantyl rzędu 1 α. Jeżeli D n < λ (n, 1 α) to na poziomie istotności α nie ma podstaw do odrzucenia hipotezy roboczej H 0, jeżeli natomiast D n λ (n, 1 α) to hipotezę roboczą H 0 odrzucamy na korzyść hipotezy alternatywnej H 1.
Przykład 2. > x< rnorm(100, 2, 1) > ks.test(x, pnorm, 2, 1) One-sample Kolmogorov-Smirnov test data: x D = 0.059812, p-value = 0.8668 alternative hypothesis: two-sided
Kryterium Cramera von Misesa (kryterium ω 2 ) oparte jest na statystyce nω 2 = (F n (x) F (x)) 2 df (x). W praktyce wyznaczamy wartość statystyki testowej W1 2 = 1 n 12n + ( F ( ) ) 2 2i 1 x (i), 2n i=1 gdzie x (1) x (2)... x (n) jest ciągiem uporządkowanym.
Wartości krytyczne dla testu Cramera von Misesa wyznaczamy z tabeli α 0.01 0.05 0.025 0.01 Warunki W 2 1 α 0.3473 0.4614 0.5806 0.7435 W 2 1 α 0.1035 0.1260 0.148 0.1788 W 2 1 α 0.1745 0.2216 0.2706 0.3376 hipoteza prosta, rozkład ciągły, liczebność póby n > 40 hipoteza złożona (dla normalnego szacujemy m, σ) lub n 40 W2 2 = ( W 2 0.4 n + ) ( ) 0.6 n 1 + 1 2 n hipoteza złożona, rozkład wykładniczy W3 2 = W 2 ( 1 + 2.8 n ) 3 n 2 Jeżeli Wi 2 < W1 α 2 to na poziomie istotności α nie ma podstaw do odrzucenia hipotezy roboczej H 0, jeżeli natomiast Wi 2 W1 α 2 to hipotezę roboczą H 0 odrzucamy na korzyść hipotezy alternatywnej H 1.
Uwaga: Dla aproksymacji rozkładu W 2 1 za pomocą rozkładu χ 2 dla k stopni swobody wystarczy przyjąć gdzie W 2 1 = a + bχ 2 (k), a = 336n2 959n + 609 210 (32n 2 61n + 30), b = 32n2 61n + 30 98n (4n 3) 3, k = 84n (4n 3) 5 (32n 2 61n + 30) 2.
Testy zgodności Kryterium Watsona oparte jest na statystyce ( F n (x) F (x) (F n (x) F (x)) df (x)) 2 df (x). W praktyce wyznaczamy wartość statystyki testowej U 2 n = n 1 12n + = W 2 1 n i=1 ( 1 n ( F ( ) 2i 1 x (i) 2n n i=1 F ( ) 2 ) 1 x (i), 2 ) 2 n ( 1 n n i=1 gdzie x (1) x (2)... x (n) jest ciągiem uporządkowanym. F ( ) 2 ) 1 x (i) 2
Rozkład graniczny statystyki U 2 jest dany wzorem G (s) = 1 2 ( 1) m 1 e 2m2 π 2s. m=1 Zmodyfikowana statystyka Watsona ( Ũn 2 = U 2 0.1 n + 0.1 ) ( n 2 1 + 0.8 ) n dla n > 10 dla rozkładu granicznego przyjmuje wartości krytyczne przedstawione w tabeli poniżej α 0.01 0.05 0.025 0.01 U1 α 2 0.152 0.187 0.221 0.267
Uwaga: Dla aproksymacji rozkładu U 2 n za pomocą rozkładu χ 2 dla k stopni swobody wystarczy przyjąć U 2 n = a + bχ 2 (k), gdzie 21n56 a = 840 (n 1.5), b = n 1.5 49n (n 1), k = 42n 20 (n 1.5) 2.
Kryterium Andersona - Darlinga oparte jest na statystyce (Fn (x) F (x)) 2 df (x). F (x) (1 F (x)) W praktyce wyznaczamy wartość statystyki testowej A 2 = n 1 n = n 1 n n ( ( ) ( ( ))) (2i 1) ln F x(i) + (2n 2i + 1) ln F x(n+1 i) i=1 n (2i 1) ( ln F ( ) ( ( ))) x (i) + ln F x(n+1 i) i=1
Wartości krytyczne dla testu Andersona - Darlinga wyznaczamy z tabeli α 0.01 0.05 0.025 0.01 Warunki A 2 1 α 1.933 2.492 3.07 3.857 A 2 1 α 0.908 1.105 1.304 1.573 A 2 1 α 1.760 2.323 2.904 3.690 A 2 1 α 0.578 0.683 0.779 0.926 A 2 1 α 0.631 0.752 0.873 1.035 hipoteza prosta, rozkład ciągły, liczebność póby n > 5 hipoteza złożona (dla rozkładu normalnego m- nieznane, σ- znane) hipoteza złożona (dla rozkładu normalnego m- znane, σ- nieznane) hipoteza złożona (dla rozkładu normalnego m i σ- nieznane), statystyka A 2 = A 2 ( 1 + 4 n 25 n 2 ) hipoteza złożona (dla rozkładu normalnego m i σ- nieznane), statystyka A 2 = A ( 2 1 + 0.75 n + ) 2.25 n 2 Jeżeli A 2 < A 2 1 α to na poziomie istotności α nie ma podstaw do odrzucenia hipotezy roboczej H 0, jeżeli natomiast A 2 A 2 1 α to hipotezę roboczą H 0 odrzucamy na korzyść hipotezy alternatywnej H 1.
Testy zgodności Test Shapiro-Wilka Test Kołmogorowa - Smirnowa Test Lillieforsa Test Jarque-Bera Na poziomie istotności α konstrujemy hipotezę roboczą H 0 : elementy szeregu {x t } 1 t n mają rozkład N ( m, σ 2) wobec hipotezy alternatywnej H 1 : elementy szeregu {x t } 1 t n mają inny rozkład.
Test Shapiro-Wilka Testy zgodności Test Shapiro-Wilka Test Kołmogorowa - Smirnowa Test Lillieforsa Test Jarque-Bera Statystyka testowa jest dana wzorem gdzie W = [ n 2 ] a i (n) ( ) x (n i+1) x (i) i=1 n, (x i x) 2 i=1 x = 1 n n x i, [] oznacza część całkowitą, natomiast wielkości a i (n) są wyznaczane z tablic wartości współczynników dla testu Shapiro-Wilka. i=1 2
Test Shapiro-Wilka Test Kołmogorowa - Smirnowa Test Lillieforsa Test Jarque-Bera Z tablic rozkładu zmiennej losowej W wyznaczamy kwantyle rzędu α 2 oraz 1 α 2 oraz oznaczamy jako W ( α 2, n) oraz W ( 1 α 2, n). Jeżeli W ( α 2, n) < W < W ( 1 α 2, n), to na poziomie istotności α nie ma podstaw do odrzucienia hipotezy H 0 w przeciwnym razie hipotezę roboczą H 0 odrzucamy na korzyść hipotezy alternatywnej H 1. Test Shapiro-Francia jest modyfikacją testu Shapiro-Wilka, gdzie wielkości a i (n) są aproksymowane.
Test Kołmogorowa - Smirnowa Test Shapiro-Wilka Test Kołmogorowa - Smirnowa Test Lillieforsa Test Jarque-Bera 1 Porządkujemy niemalejąco ciąg reszt x 1, x 2,..., x n, tym sposobem otrzymujemy permutację postaci 2 Obliczamy różnice x (1) x (2)... x (n). t n F ( x (t) ) dla t = 1, 2,..., n, gdzie F jest dystrybuantą rozkładu normalnego N (0, σ) oraz wyznaczamy d + = max t t {1,2,...,N} n F ( ) x (t).
Test Shapiro-Wilka Test Kołmogorowa - Smirnowa Test Lillieforsa Test Jarque-Bera 3 Obliczamy różnice oraz wyznaczamy F ( ) t 1 x (t), dla t = 1, 2,..., N N d = max t {1,2,...,N} F ( ) t 1 x (t) n. 4 Przyjmujemy d N = max { d, d +}. 5 Dla liczebności n 100 z tablic rozkładu Kołmogorowa wyznaczamy wartość krytyczną statystyki d n (1 α).
Test Shapiro-Wilka Test Kołmogorowa - Smirnowa Test Lillieforsa Test Jarque-Bera Jeżeli d n < d n (1 α), to na poziomie istotności α nie ma podstaw do odrzucenia hipotezy H 0. Przyjmujemy wtedy, że {x t } 1 t n ma rozkład normalny N ( m, σ 2). Jeżeli d n d n (1 α), to na poziomie istotności α odrzucamy hipotezę roboczą H 0 na korzyść hipotezy alternatywnej H 1 oraz przyjmujemy, że ciąg {x t } 1 t n ma rozkład różny od normalnego. W przypadku gdy liczebność próbki N > 100, to posługujemy się rozkładem granicznym Kołmogorowa P ( nd n d 1 α ) = α. Wartość krytyczną d 1 α dla rozkładu granicznego odczytujemy z tablicy 1 α 0.9 0.95 0.975 d 1 α 1.224 1.354 1.628 Jeżeli nd n < d 1 α, to na poziomie istotności α nie ma podstaw do odrzucienia hipotezy H 0. Przyjmujemy wtedy, że {x t } 1 t n ma rozkład normalny N ( m, σ 2). Jeżeli nd n d 1 α, to hipotezę roboczą H 0 odrzucamy na korzyść hipotezy alternatywnej H 1.
Test Lillieforsa Testy zgodności Test Shapiro-Wilka Test Kołmogorowa - Smirnowa Test Lillieforsa Test Jarque-Bera Test Lillieforsa jest modyfikacją testu Kołmogorowa-Smirnowa na przypadek gdy wartość średnia oraz odchylenie standardowe nie ssą znane. Statystyka testowa w przypadku testu Lillieforsa wygląda tak samo jak w przypadku testu Kołmogorowa Smirnowa D L = d n ( n 0.01 + 0.85 n gdzie d n statystyką Kołmogorowa-Smirnowa. Dla statystyki testowej stosujemy inny rozkład niż rozkład Kołmogorowa. Wartości krytyczne odczytujemy z tablicy α 0.01 0.05 0.025 0.01 D 1 α 0.819 0.895 0.955 1.035 Jeżeli D L < D 1 α, to na poziomie istotności α nie ma podstaw do odrzucienia hipotezy H 0. Przyjmujemy wtedy, że {x t } 1 t n ma rozkład normalny N ( m, σ 2). Jeżeli D L D 1 α, to hipotezę roboczą H 0 odrzucamy na korzyść hipotezy alternatywnej H 1. ),
Test Jarque-Bera Testy zgodności Test Shapiro-Wilka Test Kołmogorowa - Smirnowa Test Lillieforsa Test Jarque-Bera Statystyka testowa jest dana wzorem JB = n (S 2 + 14 ) 6 (C 3)2, gdzie S = µ 3 s 3, C = µ 4 s 3, x = 1 n s 2 = 1 n (x i x) 2, n µ i = 1 n i=1 n x i, i=1 n (x i x) i, dla i = 3, 4. i=1
Test Shapiro-Wilka Test Kołmogorowa - Smirnowa Test Lillieforsa Test Jarque-Bera Jeżeli realizacje zmiennej losowej spełniają warunek normalności rozkładu, to statystyka JB asymtotycznie dąży do rozkładu χ 2 z dwoma stopniami swobody. Z tablic rozkładu χ 2 odczytujemy wartość krytyczną χ 2 (2, 1 α) kwantyl rzędu 1 α o 2 stopniach swobody. Jeżeli χ 2 < χ 2 (2, 1 α) to na poziomie istotności α nie ma podstaw do odrzucenia hipotezy roboczej H 0, jeżeli natomiast χ 2 χ 2 (2, 1 α) to hipotezę roboczą H 0 odrzucamy na korzyść hipotezy alternatywnej H 1. Hipoteza zerowa dla testu Jarque-Bera jest hipotezą łączną, gdzie asymetria rozkładu i eksces dązą do zera.
Test Shapiro-Wilka Test Kołmogorowa - Smirnowa Test Lillieforsa Test Jarque-Bera w R > library(nortest) > ad.test(x) > cvm.test(x) > lillie.test(x) > ks.test(x, pnorm, mean(x), sd(x)) > pearson.test(x) > shapiro.test(x) >library(moments) >jarque.test(x)