Testy zgodności. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 11

Testy zgodności Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej

27. Nieparametryczne testy zgodności Weryfikacja hipotezy nieparametrycznej zbadanie zgodności między hipotetycznym rozkładem w populacji, a empirycznym rozkładem w próbce zbadanie zgodności między empirycznymi rozkładami w dwóch próbkach Wstępne informacje co do postaci rozkładu analiza histogramu uzyskanego z próbki a) b) 0 0 Rys.27.1. Przykłady histogramów empirycznych

Testy zgodności dla jednej populacji (27.1) Testy zgodności dla jednej populacji test χ 2 Pearsona (n 80) test λ Kołmogorowa (liczność dowolna, cecha typu ciągłego) test Shapiro-Wilka (rozkład normalny, n 50) test Kołmogorowa-Lillieforsa (rozkład normalny, n > 30) Hipotezy H 0 : cecha X ma rozkład określony dystrybuantą F H 1 : H 0 Dla cechy typu ciągłego zakładamy, że wartości próbki są przedstawione w postaci szeregu przedziałowego rozdzielczego Lp. 1 2 k Granice klas x 1d x 1g x 2d x 2g x kd x kg Liczebność empiryczna n i n 1 n 2 n k Zauważmy, że x id = x i-1g

Test χ 2 Pearsona Model (test χ 2 Pearsona, n 80) Jeśli hipoteza H 0 jest prawdziwa, to prawdopodobieństwo p i, że cecha X typu ciągłego przyjmuje wartości należące do i-tej klasy można obliczyć ze wzoru pi = F( xig ) F( xi 1g ) Wtedy liczność hipotetyczna w i-tej klasie wyraża się wzorem np i i zachodzą następujące twierdzenia Twierdzenie a) Jeśli próba jest liczna (n 80), to statystyka ( N np ) 2 2 k i i χ = i= 1 npi ma w przybliżeniu rozkład χ 2 z k 1 stopniami swobody, gdzie N i jest zmienną losową, oznaczającą liczbę elementów próbki, należących do i-tej klasy

Test χ 2 Pearsona Twierdzenie cd. b) Jeśli dystrybuanta F cechy X zależy od l parametrów o nieznanych wartościach, to statystyka χ 2 ma w przybliżeniu rozkład χ 2 z k l 1 stopniami swobody Obszar krytyczny dla hipotezy alternatywnej H 1 : H 0 ma dla ustalonego poziomu ufności α postać K = χ 2 (1 α, k l 1), ) Uwaga Do klasy 1-szej i k-tej (ostatniej) powinno należeć co najmniej 5 elementów, do pozostałych klas co najmniej 10 elementów

Test χ 2 Pearsona Przykład (a) Z populacji, w której badana cecha X ma nieznaną dystrybuantę F pobrano próbkę o liczności 200 Wyniki po podziale na 10 równych klas zawarto w tabeli Środki klas 45,25 45,75 46,25 46,75 47,25 47,75 48,25 48,75 49,25 49,75 n i 23 19 25 18 17 24 16 22 20 16 Na poziomie istotności 0.05 zweryfikować hipotezę, że cecha X ma rozkład jednostajny na przedziale 40,50

Test χ 2 Pearsona Przykład (b) Doświadczenie dotyczy selekcji grochu Mendel obserwował liczności występowania różnych rodzajów nasion, otrzymanych przy krzyżowaniu roślin z okrągłymi i żółtymi nasionami oraz roślin z pomarszczonymi i zielonymi nasionami Otrzymane wyniki zebrano w tabeli Nasiona żółte zielone okrągłe 315 108 pomarszczone 101 Na poziomie istotności 0.05 zweryfikować hipotezę, że stosunek liczby czterech rodzajów nasion wynosi 9:3:3:1 32

Test χ 2 Pearsona Przykład (c) Dokonano 100 pomiarów wytrzymałości elementów żelbetonowych Wyniki przedstawiono w tabeli Wytrzymałość 289-291 291-293 293-295 295-297 297-299 Liczba pomiarów 1 4 9 15 24 Wytrzymałość 299-301 301-303 303-305 305-307 307-309 Liczba pomiarów 21 13 9 3 1 Na poziomie istotności 0.05 sprawdzić hipotezę, że zmienna losowa X, będąca modelem wytrzymałości tych elementów, ma rozkład normalny

Testy zgodności dla dwóch populacji (27.2) Testy zgodności dla dwóch populacji (cecha typu ciągłego) test serii test Smirnowa-Kołmogorowa test Wilcoxona Założenia W dwóch populacjach dystrybuanty F 1 i F 2 badanej cechy X są ciągłe Dane są dwie niezależne próbki proste o licznościach n 1 i n 2 odpowiednio Hipotezy H 0 : F 1 (x) = F 2 (x) H 1 : F 1 (x) F 2 (x)

Test serii Model (test serii) Wyniki obu próbek ustawiamy w n 1 +n 2 -elementowy ciąg niemalejący Tworzymy drugi ciąg, w którym a odpowiada elementom pierwszej próbki, b drugiej, np. aaabbabaab Ustalamy liczbę k serii występujących w ciągu (w powyższym jest 6 serii) Wyznaczamy obszar krytyczny K = 2, k( α, n, n ) gdzie k(α, n 1,n 2 ) odczytujemy z tablic rozkładu serii Odrzucamy hipotezę H 0 o zgodności rozkładów, jeśli k K 1 2

Test serii Przykład Chcemy sprawdzić, która kapusta: biała czy czerwona, zawiera więcej witaminy C Pobrano próbki 100 gramowe z każdego gatunku i wyznaczono ilość witaminy C dla każdej próbki w mg: Kapusta biała 45 50 64 38 66 43 49 58 31 49 Kapusta czerwona 70 68 55 61 62 74 52 71 56 Na poziomie istotności 0.05 zweryfikować testem serii hipotezę, że rozkłady zawartości witaminy C dla obu gatunków kapusty są identyczne

Dziękuję za uwagę