Testy zgodności 9 113



Podobne dokumenty
Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

STATYSTYKA

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Testy zgodności. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 11

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Testowanie hipotez statystycznych.

Wydział Matematyki. Testy zgodności. Wykład 03

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Wykład 3 Hipotezy statystyczne

Statystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

166 Wstęp do statystyki matematycznej

Weryfikacja hipotez statystycznych

Rozkłady statystyk z próby

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Statystyka matematyczna. Wykład VI. Zesty zgodności

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Statystyka matematyczna dla leśników

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Spis treści 3 SPIS TREŚCI

Testowanie hipotez statystycznych

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Wykład 10 Testy jednorodności rozkładów

POLITECHNIKA WARSZAWSKA

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Testowanie hipotez statystycznych.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Kolokwium ze statystyki matematycznej

Rozkłady i ich dystrybuanty 16 marca F X (t) = P (X < t) 0, gdy t 0, F X (t) = 1, gdy t > c, 0, gdy t x 1, 1, gdy t > x 2,

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Testowanie hipotez statystycznych

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

Wnioskowanie statystyczne. Statystyka w 5

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Prawa wielkich liczb, centralne twierdzenia graniczne

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka i eksploracja danych

Testowanie hipotez statystycznych etc

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

Testowanie hipotez statystycznych. Wprowadzenie

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Hipotezy statystyczne

STATYSTYKA wykład 5-6

Dr Anna ADRIAN Paw B5, pok 407

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Hipotezy statystyczne

Testowanie hipotez statystycznych cd.

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

Statystyka matematyczna i ekonometria

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

Przykład 1. (A. Łomnicki)

Prawdopodobieństwo i statystyka

Rozkłady statystyk z próby. Statystyka

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Dokładne i graniczne rozkłady statystyk z próby

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Testy nieparametryczne

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

VIII WYKŁAD STATYSTYKA. 7/05/2014 B8 sala 0.10B Godz. 15:15

Zadanie 1. Analiza Analiza rozkładu

Metody probabilistyczne opracowane notatki 1. Zdefiniuj zmienną losową, rozkład prawdopodobieństwa. Przy jakich założeniach funkcje: F(x) = sin(x),

Transkrypt:

Testy zgodności 9 3 9. TESTY ZGODNOŚCI 9. Różne sytuace praktyczne W praktyce badań statystycznych, ak uż poprzednio stwierdzono, cały proces analizy statystyczne dzielimy na dwa etapy: formułowanie hipotezy statystyczne oraz weryfikace hipotezy statystyczne, które powinny być oparte na niezależnych obserwacach. Oznacza to, że po sformułowaniu hipotezy należy zebrać nowe obserwace dla e sprawdzenia. Prawda obiektywna nie może opierać się tylko na ednym materiale statystycznym. Często w praktyce podświadomie hipotezę statystyczną, którą sformułowaliśmy, traktuemy ako własną, edynie słuszną, traktuąc odrzucenie hipotezy ak osobistą porażkę. Emoconalny stosunek do hipotezy zerowe nie est właściwym podeściem do testowania hipotez statystycznych, bowiem grozi statystycznym oszustwem. Niestety, często nawet w nauce zdarzaą się takie sytuace, w których celem est obrona własne, edynie słuszne hipotezy. W takich sytuacach powstae manipulaca statystyczna udaąca naukowe podeście do problemu. Dlatego też raporty z badań statystycznych powinny być przeźroczyste pozwalaące na łatwą kontrolę obliczeń statystycznych. I stąd bierze się wymóg weryfikaci każde hipotezy na niezależnym materiale. W dalszym ciągu przytacza się trochę zmieniony podrozdział 5.3 książki Plucińskich (990). Mówiąc o zagadnieniach estymaci, ak również weryfikaci hipotezy parametryczne, często zakładaliśmy, że znamy postać rozkładu interesuące nas cechy elementów populaci generalne, a w przypadku nieznaomości postaci rozkładu, korzystaliśmy z twierdzeń granicznych. Obecnie omówione zostaną testy pozwalaące na weryfikacę hipotezy dotyczące postaci nieznanego rozkładu. Niech dana będzie populaca, w które rozkład cechy X elementów est nieznany. Pobieramy n-elementową próbkę. Zaobserwowane w próbce wartości zawieraą oczywiście informace o nieznanym rozkładzie cechy X. Naprostszą metodą prowadzącą do uzyskania wstępnych informaci o postaci rozkładu interesuące nas cechy elementów populaci est narysowanie histogramu rozkładu

4 Testy zgodności 9 zaobserwowanego w próbce. Uzyskane z rysunku informace są ednak niepełne i oczywiście tylko wzrokowe. Niepełne przede wszystkim ze względu na to, że nie uwzględnia się losowego składu próbki. Jednakże te wzrokowe informace zawarte w histogramie pozwalaą na zorientowanie się, akie ewentualnie rozkłady mogą być brane pod uwagę. Popatrzmy na histogramy podane na rysunkach 9.. O ile na prawym histogramie skłonni byliśmy dopuścić możliwość występowania rozkładu Erlanga rzędu lub więce, o tyle taka ewentualność dla lewego histogramu nie powinna być brana pod uwagę. Rys. 9.. Przykładowe histogramy z badań statystycznych Oczywiście, spostrzeżenia oparte na kształcie histogramu nie mogą służyć za podstawę do akichś ogólnieszych rozważań. Niezbędna est bardzie precyzyna miara zgodności między rozkładem w próbce a hipotetycznym rozkładem cechy elementów populaci. Pierwszym krokiem, podobnie ak to miało miesce w przypadku hipotez parametrycznych, powinno być ustalenie zbioru możliwych w danym zagadnieniu hipotez, tzn. zbioru możliwych rozkładów, które mogą być brane pod uwagę. Następnie wyróżnienie z tego zbioru hipotezy zerowe. Kolenym krokiem est przyęcie odpowiednie statystyki, która może służyć za test do weryfikaci hipotezy zerowe. Rozważmy szczegółowo kilka testów nieparametrycznych. 9..Test χ Pearsona Niech cecha x elementów populaci ma rozkład o dystrybuancie F. Podzielmy całą oś rzeczywistą na r + rozłącznych przedziałów I, I,..., I r + za pomocą liczb = α < α <... < α r < α r =. Oznaczmy przez p prawdopodobieństwo, że zmienna 0 + losowa X przymie wartość z przedziału I, tzn.

Testy zgodności 9 5 ( ) ( ) p = F α F α, =,,..., r + (9.) i niech p > 0 dla każdego. Liczba np est oczekiwaną liczbą obserwaci n-elementowe próbki, które powinny się znaleźć w przedziale I. Niech N oznacza zmienną losową o wartościach n będących liczbą obserwaci, które znalazły się w przedziale I. Suma kwadratów różnic n np tzn. r+ = ( n np ) (9.) może służyć za miarę zgodności rozkładu zaobserwowanego w próbce z rozkładem hipotetycznym. Wartość sumy (9.) zmienia się od próbki do próbki, a statystyka, które wartościami są te sumy ma bardzo złożony rozkład. Okazue się ednak, że odpowiednie wyważenie kwadratów ( n np ) K Pearson udowodnił mianowicie, że statystyka pozwala na uzyskanie znanego rozkładu granicznego. χ = ( np ) r+ N = np (9.3) ma, gdy n, rozkład chi-kwadrat o r stopniach swobody. Statystyka (9.3) znana est w literaturze pod nazwą testu χ Pearsona. Zauważmy, że statystyka χ nie zależy od tego, aka est postać dystrybuanty cechy X elementów populaci. Istotną rolę odgrywaą tu prawdopodobieństwa p P( X I ) =, przy czym podział na przedziały I został dokonany w sposób zupełnie dowolny. Ten sam układ prawdopodobieństw p, p,..., p r + może odpowiadać wielu różnym rozkładom zarówno typu ciągłego, ak i skokowego. Oznacza to, że w gruncie rzeczy za pomocą testu χ możemy zweryfikować hipotezę dotyczącą układu prawdopodobieństw p, p,..., p r +, a nie postaci rozkładu cechy X elementów populaci. Dlatego też za hipotezę zerową będziemy tu uważać

6 Testy zgodności 9 klasę wszystkich rozkładów, dla których P( X I ) = p ( = r + ),,...,. Hipotezą alternatywną est klasa rozkładów, dla których co namnie dla ednego est ( ) P X I p. Oczywiście, obydwie wymienione klasy rozkładów są dość szerokie. Możne e na ogół bardzo zawęzić korzystaąc z informaci dotyczących przebiegu badanego zawiska czy istoty zagadnienia, np. że cecha X elementów populaci est zmienną losową typu ciągłego lub że przymue wartości całkowite, czy też że przymue wartości z pewnego niewielkiego przedziału. Jednakże mimo zawężenia hipoteza zerowa, ak i alternatywna będą nadal bardzo licznymi klasami rozkładów. Oznacza to, że przy dane próbce statystyka χ będzie mieć tę samą wartość dla wielu rozkładów. Te rozkłady, dla których prawdopodobieństwo odrzucenia hipotezy zerowe est takie samo i hipotezę odrzucamy, nie będą nas interesowały. Przyęcie hipotezy zerowe est równoważne stwierdzeniu, że każdy rozkład należący do nie może służyć do opisu danego zawiska, czy doświadczenia. Wystarczy zatem wybrać eden z rozkładów należących do hipotezy zerowe. Dlatego też w dalszych rozważaniach, dla uproszczenia, hipotezę zerową formułować będziemy ako przypuszczenie, że cecha X elementów populaci ma rozkład o dystrybuancie F. Maąc sprecyzowaną hipotezę zerową i wybrany test do weryfikaci te hipotezy postępuemy w sposób analogiczny ak w przypadku hipotez parametrycznych. Za pomocą testu χ hipotezę zerową weryfikuemy w sposób następuący. Przymuemy poziom istotności testu α. Zbiorem krytycznym est zbiór {(,,..., ):. } W = x x x n χ zaobs χ α, gdzie χ α est liczbą odczytaną z tablic rozkładu chi-kwadrat o r stopniach swobody spełniaącą warunek ( ) ( ) P χ > χα = k r x dx = α, χ α przy czym k ( x) r est gęstością prawdopodobieństwa zmienne losowe o rozkładzie chikwadrat z r stopniami swobody.

Testy zgodności 9 7 Zatem hipotezę H 0 odrzucamy, gdy χ zaobs. χ α > (9.4) i przymuemy, gdy χ zaobs. χ α, (9.5) gdzie χ zaobs. oznacza wartość statystyki (9.3) zaobserwowaną w próbce. Przedstawiona metoda weryfikaci hipotezy o postaci rozkładu est oparta na granicznym rozkładzie statystyki (9.3), a zatem n musi być dostatecznie duże. Przymue się, że test χ można stosować, gdy np 0 dla =, 3,..., r oraz np, np r + 5. W przypadku takiego podziału osi OX na przedziały, w którym ( ) p = r + =,,..., r + można stosować graniczny rozkład testu χ o r stopniach swobody na poziomie istotności α = 0. 05 lub α = 0. 0 uż dla niewielkich n (5-0) i n =. drogowych na PRZYKŁAD 9. (Plucińscy, 990) przeprowadzono obserwace dotyczące wypadków określonym terenie spowodowanych w ciągu roku przez kierowców będących w stanie nietrzeźwym. Otrzymany rozkład wypadków w poszczególne dni tygodnia podae następuąca tabelka: Pn Wt Śr Czw Pt So N 9 5 6 4 3 8 7 Przymuąc poziom istotności α = 0. 05 zweryfikować hipotezę, że prawdopodobieństwo zdarzenia się na tym terenie wypadku spowodowanego przez kierowcę w stanie nietrzeźwym est ednakowe dla wszystkich dni tygodnia. Mamy tu siedem przedziałów I, I,..., I 7 oraz p = p =... = p7 = 7, a liczności n podane są w tabelce. Z danych liczbowych wynika, że n =, np = = 6, 7

8 Testy zgodności 9 χ zaobs. ( ). 6 9 0 4 9 4 4 = + + + + + + = = 75. 8 Z tablicy rozkładu chi-kwadrat dla 6 stopni swobody i poziomu istotności α = 0. 05 znaduemy χ α =. 59. Ponieważ χ < χ więc hipotezę H 0 o równości zaobs. prawdopodobieństw przymuemy. Omówiona metoda weryfikaci hipotez nieparametrycznych odnosi się wyłącznie do tych przypadków, gdy dystrybuanta F ednoznacznie określa hipotetyczny rozkład, bowiem tylko wtedy w sposób ednoznaczny można określić prawdopodobieństwa p. Nie można na przykład przedstawionym testem χ zweryfikować hipotezy, że cecha X elementów populaci ma rozkład normalny, eśli parametry tego rozkładu nie są znane. Można ednak ulepszyć, a dokładnie poszerzyć metodę zaproponowaną przez Pearsona. Fisher udowodnił, że przy spełnieniu pewnych warunków odnośnie do nieznanych parametrów dystrybuanty F test χ może być zastosowany również w tych przypadkach, gdy dystrybuanta F precyzue edynie pewną klasę rozkładów, a ściśle mówiąc, zależy od nieznanych parametrów. Przedstawimy teraz zmodyfikowany przzez Fishera test χ. Sformułuemy napierw twierdzenie udowodnione przez Fishera. cząstkowe TWIERDZENIE 9.. Niech p = p ( λ λ λ ),,..., i niech istnieą ciągłe pochodne m δp δ p,, =,,..., r + ; i, l =,,..., m. δλ δλ δλ i l Jeżeli macierz [ δp δλ ] ( r i m) i =,,..., + ; =,,..., est rzędu m, a parametry λ, λ,..., λm zostały wyznaczone metodą nawiększe wiarygodności, to rozkład statystyki χ Pearsona zmierza, gdy n, do rozkładu chi-kwadrat o r-m stopniach swobody. Z twierdzenia 9. wynika, że eżeli chcemy zweryfikować hipotezę H 0, że cecha X elementów populaci ma rozkład o dystrybuancie F zależne od m parametrów, to do weryfikaci takie hipotezy można użyć testu χ Pearsona. Zbiorem krytycznym w tym przypadku będzie zbiór

Testy zgodności 9 9 {(,,..., ):. } W = x x x n χ zaobs > χ α, gdzie χ α est liczbą odczytaną z tablicy rozkładu chi-kwadrat spełniaącą warunek ( ) ( ) P χ > χα = k r m x dx = α, χ α przy czym k ( x) r m est gęstością prawdopodobieństwa zmienne losowe o rozkładzie chikwadrat z r-m stopniami swobody. PRZYKŁAD 9. (Plucińscy, 990). W dziale kontroli techniczne pewne fabryki konfekci badanie akości partii płaszczy damskich przeprowadza się wyrywkowo. W celu zbadania akości partii płaszczy damskich pobrano próbkę o liczności 80 sztuk i zbadano liczby usterek otrzymuąc następuące dane liczbowe: Liczba usterek 0 3 4 5 Liczba płaszczy 8 6 0 0 5 Przymuąc poziom istotności α = 0. 05, zweryfikować hipotezę H 0, że rozkład liczby usterek w płaszczach produkowanych w te fabryce est rozkładem Poissona. Mamy tu eden nieznany parametr λ. Jak wiemy estymatorem NW parametru λ est X n, a więc ako oszacowania parametru λ przymuemy x n = 5.. I I I 3 I 4 I 5

0 Testy zgodności 9 Rys. 9.. Podział na przedziały zmienności Przymimy podziały na przedziały I ak na Rys. 9.. Dwie ostatnie kolumny danych z tabelki połączyliśmy ze względu na małe liczności w tych kolumnach. Z tablicy rozkładu Poissona dla λ = 5. odczytuemy prawdopodobieństwa p. Następnie obliczamy wartość statystyki χ Pearsona zapisuąc kolene obliczenia w następuące tabelce: n p np n np ( n np) ( n np) np 8 0.3 7.848 0.5 0.0304 0.003 6 0.3347 6.776-0.776 0.6076 0.05 3 0 0.50 0.080-0.080 0.00640 0.0003 4 0 0.55 0.040-0.040 0.00600 0.000 5 6 0.047 3.768.3 4.9884.3 χ zaobs. =.3464 Mamy więc tu 5 przedziałów i eden parametr wyznaczony na podstawie próbki, zatem liczba stopni swobody est równa 3. Z tablic rozkładu chi-kwadrat dla α = 0. 05 i trzech stopni swobody odczytuemy χ zaobs. = 3464. < χ α = 7. 85, więc przymuemy hipotezę H 0, że rozkład liczby usterek w płaszczach est rozkładem Poissona. 9.3.Test λ Kołmogorowa

Testy zgodności 9 Test nieparametryczny można również skonstruować na podstawie twierdzenia Kołmogorowa. Przypuśćmy, że interesuąca nas cecha X elementów populaci est zmienną losową typu ciągłego. Na podstawie n elementowe próbki (n co namnie rzędu kilku dziesiątków) chcemy zweryfikować hipotezę H 0, że cecha X ma dystrybuantę F. Jako test do weryfikaci hipotezy H 0 możemy przyąć statystykę nd = n sup F ( x) F( x), (9.6) n < x< n gdzie F n est dystrybuantą empiryczną. Rozkład graniczny statystyki nd n precyzue twierdzenie Kołmogorowa (patrz np. Plucińscy, 990). Przymimy poziom istotności α. Zbiorem krytycznym est tu zbiór {( n ) n } W = x, x,..., x : nd > λ, (9.7) gdzie λ est liczbą spełniaącą warunek ( ) ( ) P nd > λ = n Q λ = α, (9.8) przy czym ( ) Q λ est wartością dystrybuanty rozkładu określone w twierdzeniu Kołmogorowa (patrz np. Plucińscy, 990). Dla danego α znamy Q( λ ), a z odpowiednie tablicy odczytamy wartość λ. Hipotezę H 0, że cecha X ma dystrybuantę F odrzucamy, gdy nd n > λ (9.9) i przymuemy, gdy nd n λ. (9.0)

Testy zgodności 9 Należy podkreślić, że przy stosowaniu testu λ Kołmogorowa trzeba mieć na uwadze pewne ograniczenia. Po pierwsze dystrybuanta F musi ednoznacznie określać hipotetyczny rozkład w tym sensie, że nie może zależeć od parametrów szacowanych na podstawie próbki. W przypadku zależności F od nieznanych parametrów twierdzenie Kołmogorowa nie est prawdziwe. Po drugie w związku z założeniem ciągłości dystrybuanty F wyników obserwaci nie można grupować. 9.4.Test Kołmogorowa- Smirnowa Przymimy, że dane są dwie populace. Chcemy zweryfikować hipotezę H 0, że cecha X elementów obydwu populaci ma taką samą ciągłą dystrybuantę F. Test dla zweryfikowania takie hipotezy oparty est na następuącym twierdzeniu Smirnowa: TWIERDZENIE 9.. Niech: a) X, X,..., X i Y, Y,..., Y będą niezależnymi zmiennymi losowymi o ednakowym n n rozkładzie z ciągłą dystrybuantą F, b) F i F n n będą dystrybuantami empirycznymi określonymi wzorami F F n n n Card i : X x i n i,,,..., (9.) ( x) = { < = } n Card i : Y x i n i,,,..., (9.) ( x) = { < = } c) ( ) ( ) δ n Wówczas nn = sup Fn x Fn x, n = < x< n + n. ( n < ) = ( ) lim P nδ x Q x (9.3) n n gdzie

Testy zgodności 9 3 ( ) Q x k k x ( ) e x > 0 = k = (9.4) 0 x 0 Wygodnym testem do weryfikowania sformułowane hipotezy est statystyka ( ) ( ) nδ n = n sup Fn x Fn x < x<. (9.5) Opiszemy teraz metodę postępowania przy weryfikaci. Mamy dwie populace. Pobieramy z nich próbki odpowiednio o liczebnościach n i n. Przypuśćmy, że zaobserwowaliśmy wartości x, x,..., x n oraz y, y,..., y n. Na podstawie tych danych znaduemy dystrybuanty empiryczne F ( x) n i F ( x), a następnie kres n górny bezwzględne wartości różnicy tych dystrybuant i wartość statystyki nδ n. Ustalamy poziom istotności α, a następnie zbiór krytyczny {( n n ) n } W = x, x,..., x, y, y,..., y : n δ > λ, (9.6) gdzie λ est liczbą spełniaącą warunek P ( n n ) δ > λ = α. (9.7) Liczba ( ) Q λ est wartością dystrybuanty (9.4). Wartości dystrybuanty są stablicowane (patrz np. Plucińscy, 990). Dla danego α, a tym samym ( ) Q λ z tablicy odczytuemy wartość λ. gdy Hipotezę H 0 o równości dystrybuant cechy X elementów obu populaci odrzucamy, nδ n > λ (9.8) i przymuemy, gdy nδ n λ. (9.9)

4 Testy zgodności 9 Pamiętać należy, że test Kołmogorowa-Smirnowa oparty est na granicznym rozkładzie statystyki nδ n, a więc być stosowany tylko wtedy, gdy liczebności są dostatecznie duże (co namnie rzędu kilku dziesiątek). PRZYKŁAD 9.3 (Plucińscy, 990). W celu zbadania trwałości opon samochodowych produkowanych przez fabryki A i B pobrano próbki z bieżące produkci obu fabryk i otrzymano następuące dane dotyczące maksymalnego przebiegu samochodów na badanych oponach (wyrażone w tysiącach km): Maksymalny przebieg Liczba opon z fabryki A z fabryki B 0-5 8 0 5-0 8 0-5 54 8 5-30 4 76 30-35 4 36 35-40 0 40-45 8 Razem 60 80 Przymuąc poziom istotności α = 0. 0 zweryfikować hipotezę H 0, że rozkłady przebiegów dla opon produkowanych przez obie fabryki maą tę samą ciągłą dystrybuantę F. Zastosuemy tu test Kołmogorowa-Smirnowa, a obliczenia zapiszemy w postaci następuące tabelki: x n n n sk n sk F ( x) n F ( x) n F ( x) F ( x) n n

Testy zgodności 9 5 5 8 0 8 0 0.050 0.000 0.050 0 8 6 0.63 0.067 0.096 5 54 8 80 40 0.500 0. 0.096 30 4 76 6 0.763 0.6444 0.9 35 4 36 46 5 0.93 0.844 0.069 40 0 58 7 0.987 0,9555 0.03 45 8 60 80.000.000 0.000 W tabelce te przez n sk i n sk oznaczyliśmy tzw. Częstości skumulowane, tzn. n i. Z ostatnie kolumny tabelki odczytuemy, że n x x Ponieważ ( ) ( ) = sup F x F x = 0. 78 (9.0) δ n n n nn n = n + n 60 80 = = 84. 7, n = 9., (9.) 60 + 80 więc δ = 9. 0. 78 =. 5576. (9.) n n Przyęliśmy α = 0. 0, tzn. Q( λ ) = 0. 98. Dla te wartości Q( λ ) z tablicy rozkładu Kołmogorowa (patrz np. Plucińscy, 990) odczytuemy λ = 5.. Zatem otrzymaliśmy, że nδ n =. 5576 > λ = 5., (9.3)

6 Testy zgodności 9 czyli spełniona est nierówność (9.8). Oznacza to, że hipotezę H 0 o równości dystrybuant dla maksymalnych przebiegów opon pochodzących z fabryk A i B należy odrzucić. Na zakończenie należy podkreślić, że w założeniach twierdzenia Smirnowa występue warunek ciągłości dystrybuanty F, co est równoważne temu, że prawdopodobieństwo wystąpienia w próbce dwóch ednakowych wartości est równe zeru. Grupowanie wyników w przedziałach może doprowadzić do błędnych wniosków (patrz np. Plucińscy, 990). Niemnie ednak w praktyce wielkości badane obserwue się tylko z pewną dokładnością związaną z przyętym układem ednostek, co siłą rzeczy prowadzi do grupowania wyników. Przedziały grupowania nie powinny być większe niż ednostka przyęte dla danego zagadnienia skali.

Testy zgodności 9 7 Problemy rozdziału 9. Histogramy statystyczne ako źródła hipotez statystycznych o rozkładach prawdopodobieństwa w pierwszym etapie badań statystycznych.. Weryfikaca hipotezy o rozkładzie prawdopodobieństwa. 3. Test chi-kwadrat Pearsona. 4. Rozkład chi-kwadrat. 5. Klasy obserwaci a liczba obserwaci. 6. Zbiór krytyczny w teście chi-kwadrat. 7. Modyfikaca Fishera testu chi-kwadrat. 8. Liczba stopni swobody testu chi-kwadrat. 9. Test Kołmogorowa. 0. Zbiór krytyczny testu Kołmogorowa.. Test Kołmogorowa-Smirnowa.. Zbiór krytyczny testu Kołmogorowa-Smirnowa. 3. Porównanie akości testu chi-kwadrat a Kołmogorowa.