Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Podobne dokumenty
Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Wykład 10 Testy jednorodności rozkładów

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Testy zgodności. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 11

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Wydział Matematyki. Testy zgodności. Wykład 03

Testowanie hipotez statystycznych.

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Testowanie hipotez dla proporcji. Wrocław, 13 kwietnia 2015

Statystyka matematyczna. Wykład VI. Zesty zgodności

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017

Testowanie hipotez statystycznych.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

STATYSTYKA

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Statystyka w przykładach

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Testowanie hipotez statystycznych.

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Test t-studenta dla jednej średniej

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Centralne twierdzenie graniczne

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Spis treści 3 SPIS TREŚCI

Własności statystyczne regresji liniowej. Wykład 4

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym

Elementarne metody statystyczne 9

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Wykład 9 Testy rangowe w problemie dwóch prób

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Weryfikacja hipotez statystycznych

Wykład 11 Testowanie jednorodności

Rozkłady statystyk z próby

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Hipotezy statystyczne

Testowanie hipotez statystycznych. Wprowadzenie

166 Wstęp do statystyki matematycznej

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Dokładne i graniczne rozkłady statystyk z próby

Metody probabilistyczne

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych

Wykład 3 Hipotezy statystyczne

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

Statystyka matematyczna i ekonometria

Statystyka matematyczna dla leśników

Hipotezy statystyczne

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Ekonometria. Weryfikacja modelu. Paweł Cibis 12 maja 2007

Testowanie hipotez statystycznych

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Statystyka Matematyczna Anna Janicka

Statystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Statystyka matematyczna

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Statystyka Matematyczna Anna Janicka

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Wykład 7 Testowanie zgodności z rozkładem normalnym

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH

Kolokwium ze statystyki matematycznej

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

Statystyka i eksploracja danych

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA MATEMATYCZNA

Testowanie hipotez statystycznych.

Testy statystyczne teoria

Wykład 8 Dane kategoryczne

Transkrypt:

PRZYKŁADY TESTÓW NIEPARAMETRYCZNYCH. Test zgodności χ 2. Ten test służy testowaniu hipotezy, czy rozważana zmienna ma pewien ustalony rozkład, czy też jej rozkład różni się od tego ustalonego. Tym testem przede wszystkim testujemy takie hipotezy w przypadku, gdy rozkłady są dyskretne. Niech X,..., X n będzie próbką z rozkładu dyskretnego postaci {(x i, p i ), i =,..., k}, przy czym wartości {x i } są znane, a wartości {p i } nie są znane. Niech {p 0 i } będzie pewnym zadanym naborem liczb dodatnich, k i= p0 i =. Testujemy hipotezę H 0 : p i = p 0 i, i =,..., k, przeciwko hipotezie H : {p i } są inne. Niech w próbce zaobserwowaliśmy n razy wartość x, n 2 razy wartość x 2,......, n k razy wartość x k, przy czym n... n k = n. Statystyka testowa ma postać k (n i np 0 k i )2 np 0 = n i i= i= (n i /n p 0 i )2 p 0. i Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k ).

Liczby {n i } występowania poszczególnych wartości {x i } w próbie pochodzą z obserwacji, natomiast liczby {np 0 i } interpretujemy jako oczekiwane wartości występowania poszczególnych wartości {x i } w próbie, gdyby rozkład rzeczywiście był taki, jak określa to hipoteza H 0. Zatem, gdy H 0 jest prawdziwa, liczniki składników we wzorze na statystykę testową są małe, więc duże wartości tej statystyki przemawiają przeciwko hipotezie H 0. Obszar krytyczny ma postać: K = (χ 2 α,k, ). Przybliżenie rozkładem chi-kwadrat uznajemy za dopuszczalne, gdy np 0 i 5, i =,..., k, a za dobre gdy 0, i =,..., k. np 0 i Przykład. W wyborach prezydenckich uczestniczy czterech kandydatów. W wyniku sondażu przeprowadzonego przez ośrodek badania opinii publicznej wśród 00 losowo wybranych pełnoletnich Polaków uzyskano następujące wyniki: Kandydat 2 3 4 Liczba wskazań 70 38 498 394 Na ich podstawie przetestować hipotezę, że kolejnych kandydatów popiera odpowiednio 5%, 3%, 45%, 37% wyborców przeciw hipotezie, że poparcie dla kandydatów jest inne. Przyjąć poziom istotności testu równy 0,05. 2

Hipotezy: H 0 : (p, p 2, p 3, p 4 ) = (0,5, 0,03, 0,45, 0,37), H : (p, p 2, p 3, p 4 ) (0,5, 0,03, 0,45, 0,37). Mamy np 0 i 0, i =, 2, 3, 4. Wartość statystyki testowej wynosi (70 00 0,5) 2 00 0,5 (38 00 0,03)2 00 0,03 (498 00 0,45)2 (394 00 0,37)2,506. 00 0,45 00 0,37 Ponieważ χ 2 0,95,3 = 7,85, nie ma podstaw do odrzucenia H 0. 2. Adaptacja testu zgodności χ 2 do rozkładów absolutnie ciągłych. Niech F będzie dystrybuantą rozkładu, występującego w hipotezie H 0, czyli H 0 : próbka pochodzi z rozkładu o dystrybuancie F ; H : próbka pochodzi z innego rozkładu. Niech n będzie duże. Wybierając k N i liczby a < a 2 <... < a k, dzielimy zbiór {x R : 0 < F (x) < } na k rozłącznych przedziałów (na początku i końcu mogą być półproste). Określamy: p 0 i = F (a ) dla i = F (a i ) F (a i ) dla i = 2,..., k F (a k ) dla i = k. Na podstawie próbki wyliczamy wartości {n i }, gdzie n j 3

to liczba obserwacji, które wpadły do j-go przedziału, j =,..., k. Dalej stosujemy test zgodności χ 2. Przy stosowaniu tego testu mamy pewne opcje do wyboru: liczba k N oraz nabór liczb {a i }. Liczby {a i } zazwyczaj staramy się wybrać tak, by p 0 i /k, natomiast k tak, by n/k 0. Przykład 2. Z populacji generalnej pobrano próbę o liczności n = 50 : 3,6; 5,0; 4,0; 4,7; 5,2; 5,9; 4,5; 5,3; 5,5; 3,9; 5,6; 3,5; 5,4; 5,2; 4,; 5,0; 3,; 5,8; 4,8; 4,4; 4,6; 5,; 4,7; 3,0; 5,5; 6,; 3,8; 4,9; 5,6; 6,; 5,9; 4,2; 6,4; 5,3; 4,5; 4,9; 4,0; 5,2; 3,3; 5,4; 4,7; 6,4; 5,; 4,3; 5,2; 6,2; 4,4; 4,3; 5,8; 3,7. Na poziomie istotności 0,05 przetestować hipotezę H 0, że próba pochodzi z rozkładu N (5; 0,8) przeciw hipotezie H, że rozkład jest inny. Przyjmijmy k = 5 i wybierzmy: a = 4,25; a 2 = 4,75; a 3 = 5,25; a 4 = 5,75. Ponieważ F (x) = Φ( x 5 0,8 ), to F (a ) 0,2, F (a 2 ) 0,39, F (a 3 ) 0,6, F (a 4 ) 0,8, skąd p 0 = p 0 5 0,20, p 0 2 = p 0 4 0,9, p 0 3 0,22. ( ; 4,25] (4,25; 4,75] (4,75; 5,25] (5,25; 5,75] (5,75; ) 2 0 8 9 4

Wartość statystyki testowej wynosi (2 50 0,2) 2 50 0,2 (0 50 0,9)2 50 0,9 ( 50 0,22)2 50 0,22 (8 50 0,9)2 (9 50 0,2)2 0,763. 50 0,9 50 0,2 Ponieważ χ 2 0,95,4 = 9,488, nie ma podstaw do odrzucenia H 0. 3. Test Kołmogorowa-Smirnowa. H 0 : próbka pochodzi z rozkładu o dystrybuancie F ; H : próbka pochodzi z innego rozkładu. Jeśli H 0 jest prawdziwa, to zgodnie z Twierdzeniem Gliwienki-Cantellego (patrz temat Rozkład empiryczny. Dystrybuanta empiryczna) zachodzi sup x R F n (x) F (x) 0, n, z prawdopodobieństwem. Dlatego duże wartości statystyki D n (X,..., X n ) = sup F n (x) F (x), x R zwanej statystyką Kołmogorowa, przemawiają przeciwko hipotezie H 0. Lemat. Jeśli X, X 2,..., X n to niezależne zmienne lo- 5

sowe o tym samym rozkładzie z dystrybuantą F, to n D n (X,..., X n ) = sup u (0,) [0,u] (U i ) u n, gdzie U =F (X ),..., U n =F (X n ) to niezależne zmienne losowe o tym samym rozkładzie jednostajnym na [0, ]. Dowód przeprowadzimy dla prostszego przypadku, gdy F jest funkcją rosnącą (wtedy istnieje funkcja odwrotna F : (0, ) R). Zauważmy, że F (X ),..., F (X n ) są niezależnymi zmiennymi losowymi o tym samym rozkładzie jednostajnym na [0, ]. Istotnie, dla x (0, ) i= P (F (X i ) x) = P (X i F (x)) = x (jest oczywiste, że P (F (X i ) x) = 0 dla x 0 oraz P (F (X i ) x) = dla x ). Zatem n sup x R (,x] (X i ) F (x) n = i= n sup x R [0,F (x)] (F (X i )) F (x) n = i= n [0,u] (U i ) u n. sup u (0,) i= 6

Obszar krytyczny ma postać: K = (d α,n, ], gdzie wartość d α,n odczytujemy z tablic kwantyli rozkładu statystyki Kołmogorowa. W praktyce postępujemy następująco: wyliczamy D n = max i i n n F (X i:n), D n = max i n F (X i:n) i n i kładziemy D n (X,..., X n ) = max{d n, D n }. Przykład 3. W czasie ostatniej dekady maksymalny zaobserwowany poziom wody w rzece (w metrach) w czerwcu wynosił Rok 06 07 08 09 0 2 3 4 5 Poziom,98 2,09,9 2,9,75 2,20 2,40,68 2,38 2,0 Na poziomie istotności 0,05 przetestować hipotezę H 0, że maksymalny poziom wody w rzece w czerwcu ma rozkład N (2; 0,6) przeciw hipotezie H, że rozkład jest inny. Mamy F (x) = Φ( x 2 0,4 ) oraz i x i:0 i 0 i 0 x i:0 2 i 0,4 F (x i:0 ) 0 F (x i:0) F (x i:0 ) i 0,68 0,0 0, 0,80 0,29 0,9 0,29 2,75 0, 0,2 0,62 0,2709 0,0709 0,709 3,9 0,2 0,3 0,22 0,468 0,68 0,268 4,98 0,3 0,4 0,06 0,476 0,076 0,76 5 2,0 0,4 0,5 0,03 0,520 0,020 0,20 6 2,09 0,5 0,6 0,2 0,5832 0,068 0,0832 7 2,9 0,6 0,7 0,47 0,6808 0,092 0,0808 8 2,20 0,7 0,8 0,50 0,695 0,085 0,0085 9 2,38 0,8 0,9 0,94 0,8264 0,0736 0,0264 0 2,40 0,9,0,00 0,843 0,587 0,0587 7

Z ostatnich dwóch kolumn odczytujemy, że D 0 (x,..., x 0 ) = max{d 0, D 0 } = = max{0,587; 0,268} = 0,268. Ponieważ d 0,95,0 = 0,409, nie mamy podstaw do odrzucenia hipotezy H 0. W przypadku, gdy n jest duże, opieramy rozumowania na następującym twierdzeniu granicznym Kołmogorowa. Twierdzenie. Statystyka nd n (X,..., X n ) zbiega według rozkładu, gdy n, do zmiennej losowej o dystrybuancie K(x) = k Z( ) k e 2k2 x 2 (0, ) (x), x R. Zatem dla dużych wartości n (n > 00) jako statystykę testową stosujemy nd n (X,..., X n ), a obszar krytyczny ma postać: K = (d α, ), gdzie wartość d α odczytujemy z tablic kwantyli powyższego rozkładu granicznego. 4. Test niezależności χ 2. Niech mamy dwie zmienne X i Y, każda z których przyjmuje tylko skończoną liczbę wartości: powiedzmy, 8

X przyjmuje wartości x,..., x k, a Y wartości y,..., y m. Testujemy tutaj hipotezę H 0 : zmienne X i Y są niezależne przeciwko hipotezie H : X i Y są zależne. Statystyka testowa ma postać: k m (n ij n 0 ij )2, i= j= gdzie n ij to liczba wystąpień obserwacji (x i, y j ) w próbie, natomiast m s= n is k n 0 ij = n 0 ij n l= n lj Gdy n jest dostatecznie duże, to rozkład tej statystyki w przybliżeniu jest rozkładem χ 2 ((k )(m )). Obszar krytyczny ma postać: K = (χ 2 α,(k )(m ), ). Dla poprawnego stosowania testu zazwyczaj zaleca się, aby spełnione były nierówności: n 0 ij 0, i =,..., k; j =,..., m. Przykład 4. Rzecznik pewnej partii (oznaczmy ją A) twierdzi, że wśród zwolenników tej partii, miłośnicy muzyki disco-polo, rockowej i symfonicznej występują mniej więcej w tych samych proporcjach, co w całej populacji wyborców (co by mówiło o niezależności dwóch 9.

cech wyborcy: stosunku do partii A i preferencji muzycznych). Przeprowadzono sondaż. Wśród wylosowanych 00 wyborców wyniki badania były następujące: Popieram A Nie popieram A Razem Słucham disco-polo 25 0 35 Słucham muzyki rockowej 20 20 40 Słucham muzyki symfonicznej 5 0 25 Razem 60 40 00 Hipoteza H 0 : cechy są niezależne, hipoteza H : cechy są zależne. Przyjmijmy poziom istotności testu równy 0,05. Wartość statystyki testowej wynosi (k = 2, m = 3) (25 60 35/00) 2 60 35/00 (5 60 25/00)2 60 25/00 (20 40 40/00)2 40 40/00 (20 60 40/00)2 60 40/00 (0 40 35/00)2 40 35/00 (0 40 25/00)2 40 25/00 3,57. Ponieważ χ 2 0,95,2 = 5,99, nie ma podstaw do odrzucenia H 0. 0