STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZA 1. Wyład wstępny. Teoria prawdopodobieństwa i elementy ombinatoryi. Zmienne losowe i ich rozłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez statystycznych 5. Testy parametryczne (na przyładzie testu t ) 6. Testy nieparametryczne (na przyładzie testu ) 7. Korelacja i regresja liniowa i nieliniowa 8. Analiza wariancji Copyright 010, Joanna Szyda

WSTĘP Powtórzenie: Testy parametryczne: służą do weryfiacji hipotez parametrycznych (odnoszących się do parametrów rozładu badanej cechy w populacji, tzn. najczęściej weryfiują sądy o taich parametrach populacji ja średnia arytmetyczna i wariancja). Testy te onstruowane są przy założeniu znajomości rozładu populacji (wyorzystuje się dystrybuantę).

WSTĘP Statystya nieparametryczna: zbiór metod nie wymagających założeń dotyczących rozładu populacji, z tórej pobrana jest próba. Testy nieparametryczne sprawdzające sądy co do rozładu na podstawie częstości obserwacji o różnym poziomie lub charaterze (test, test Mcemara) wyorzystujące tzw. rangowanie obserwacji o nieznanych rozładach (m.in. test Manna-Whitneya, Wilcoxona, Kołmogorowa Smirnowa, test Krusala- Wallisa)

WSTĘP Rozład chi wadrat (zapisywany też jao ) to rozład zmiennej losowej, tóra jest sumą wadratów niezależnych zmiennych losowych o standaryzowanym rozładzie normalnym (liczbę nazywa się liczbą stopni swobody) Test oparty na statystyce o rozładzie - test. Test uniwersalny, bardzo szeroie zastosowanie: jao test parametryczny przede wszystim do weryfiacji hipotez dotyczących rozładów (najpowszechniejszy test nieparametryczny w statystyce)

ROZKŁAD Sośny E x Var x 1 x f x x (0, ] Kształt zależny od liczby stopni swobody e x Copyright 009, Joanna Szyda

TESTY IEPARAMETRYCZE Test 1. Zares stosowalności. Klasyfiacja jednoczynniowa 3. Klasyfiacja dwuczynniowa 4. Test Mcemara Copyright 010, Joanna Szyda

ZAKRES STOSOWALOŚCI TESTU Testowanie hipotez dotyczących rozładów 1. Obserwacje podzielone na lasy, według przyjętych ryteriów. Dane w postaci częstości liczby obserwacji w danej lasie 3. ie należy stosować testu gdy oczeiwana liczebność dla pewnych las jest mała (< 5; wg innych autorów powinna wynosić co najmniej 10; istnieją też matematyczne poprawi na małe lasy) Copyright 010, Joanna Szyda

KLASYFIKACJA JEDOCZYIKOWA One-way classification (testowanie zgodności rozładu próby z rozładem oczeiwanym; podział wg jednego ryterium))

TEST KLASYFIKACJA JEDOCZYIKOWA KOLOR CZĘSTOŚĆ Biały Żółty Żółty 8 Żółty Czerwony Czerwony 5 Żółty Biały Żółty 4 Żółty Żółty SUMA Czerwony 17 Biały Czerwony Żółty Czerwony Czerwony Biały Żółty Biały 1. Klasyfiacja danych wg pojedynczego ryterium. Kolor wiatów rousa PRÓBA DAYCH Copyright 010, Joanna Szyda

TEST KLASYFIKACJA JEDOCZYIKOWA 1. Oreślenie hipotez H 0 i H 1 H 0 : częstości wystąpienia olorów są jednaowe H 1 : częstości wystąpienia olorów są różne H 0 : n B = n Ż = n C H 1 : n B n Ż n C. Ustalenie poziomu istotności MAX = 0.05 Copyright 010, Joanna Szyda

TEST KLASYFIKACJA JEDOCZYIKOWA 3. Wybór i oreślenie rozładu statystyi testowej ( n i i ) i1 i gdzie, dla i-tej lasy: n i jej liczebność w próbie i teoretyczna liczebność lasy Ta oreślona statystya ma rozład chi wadrat o -1 stopniach swobody Copyright 010, Joanna Szyda

TEST KLASYFIKACJA JEDOCZYIKOWA i1 n i i i liczebność lasy zaobserwowana w próbie danych H 0 n obs = exp = 0 liczebność lasy oczeiwana dla prawdziwej H 0 tutaj: ni i i 1 H 1 n obs exp > 0 Copyright 010, Joanna Szyda

TEST KLASYFIKACJA JEDOCZYIKOWA 4. Obliczenie wartości statystyi testowej i1 n n n n i 4 5.7 8 5.7 5 5.7 5.7 5.7 5. Obliczenie wartości t : i i bi bi bi 5.7 żó żó żó 1.53 liczba stopni swobody: -1 = cz cz cz t 0.47 6. Decyzja: t > max H 0 H 1 częstości wystąpienia olorów są jednaowe Copyright 010, Joanna Szyda

KLASYFIKACJA DWUCZYIKOWA Two-way classification (testowanie niezależności dwóch ryteriów podziału populacji)

TEST KLASYFIKACJA DWUCZYIKOWA 1. Klasyfiacja danych wg dwu ryteriów. Liczebność słoni w Paru arodowym Miumi, Tanzania PRÓBA DAYCH Pora samotny samiec grupa samców ategoria grupa rodzinna grupa rodzinna + samiec sucha 43 4 196 7 deszczowa 9 17 195 8 Copyright 010, Joanna Szyda

TEST KLASYFIKACJA DWUCZYIKOWA 1. Oreślenie hipotez H 0 i H 1 H 0 : pora rou nie wpływa na zmiany liczebności słoni w poszczególnych ategoriach (oba ryteria są niezależne) H 1 : pora rou wpływa na zmiany liczebności słoni w poszczególnych ategoriach (oba ryteria są zależne) H 0 : n Di = n Si dla i=1 4 H 1 : n Di n Si. Ustalenie poziomu istotności MAX = 0.05 Copyright 010, Joanna Szyda

TEST KLASYFIKACJA DWUCZYIKOWA 3. Wybór i oreślenie rozładu statystyi testowej m nij ij n n D1 i1 j1 ij D1 S 4 D1 S 4 S 4 ma rozład o ( - 1)(m - 1) stopniach swobody; liczba las według pierwszego ryterium, m liczba las według drugiego ryterium podziału. Copyright 010, Joanna Szyda

TEST KLASYFIKACJA DWUCZYIKOWA m i1 j1 n ij ij ij liczebność lasy oczeiwana dla H 0 n ij exp i1 n i. m j1 n. j n i. i1 j1 m n. j sa mot ny sa miec grupa sam ców grupa rodzin na grupa rodzin na + sa miec suma sucha 43 4 196 7 50 deszc z 9 17 195 8 31 suma 135 1 391 15 56 sucha deszczo wa samot ny samiec 135*50 56 samot ny samiec grupa samców grupa rodzin na 1*50 56? grupa samców grupa rodzin na grupa rodzin na + samiec grupa rodzin na + samiec sucha 60.5 9.34 173.93 6.67 deszczo wa 74.95 11.66 17.07 8.33 Copyright 010, Joanna Szyda

TEST KLASYFIKACJA DWUCZYIKOWA 4. Obliczenie wartości statystyi testowej 43 60.05 9 74.95 4 9.34 17 11.66 196 173.93 195 17.07 7 6.67 8 8.33 19.30 60.05 173.93 74.95 17.07 9.34 6.67 liczba stopni swobody: ( - 1)(m - 1) = 3 5. Obliczenie wartości t : t 0. 000 11.66 8.33 6. Decyzja: t < max H 0 H 1 liczebność poszczególnych grup słoni różni się w zależności od pory rou Copyright 010, Joanna Szyda

TEST MCEMARA Mcemar's test (szczególny przypade testu )

TEST McEMARA PRÓBA DAYCH 1. Wzrost baterii Mycobacterium tuberculosis na pożywach (A / B). Próbi pobrane od 50 chorych 3. Dane sparowane (ten sam pacjent) B A wzrost bra wz. wzrost 17 1 bra wz. 5 16 Copyright 010, Joanna Szyda

TEST McEMARA 1. Oreślenie hipotez H 0 i H 1 H 0 : rodzaj pożywi nie wpływa na wzrost baterii (oba ryteria są niezależne) H 1 : rodzaj pożywi wpływa na wzrost baterii (oba ryteria są zależne) H 0 : n 1 = n 1 H 1 : n 1 n 1. Ustalenie poziomu istotności MAX = 0.05 Copyright 010, Joanna Szyda

TEST McEMARA 3. Wybór i oreślenie rozładu statystyi testowej n n 1 1 n n 1 1 ~ 1 50 obserwacji 1 st. swobody! obserwacje w parach 4. Obliczenie wartości statystyi: 5. Obliczenie wartości t : t 0.08956 1 5 1 5.88 6. Decyzja: t > max H 0 H 1 rodzaj pożywi nie wpływa na wzrost baterii Copyright 010, Joanna Szyda

Test 1. Klasyfiacja jednoczynniowa. Klasyfiacja dwuczynniowa 3. Test Mcemara

IE TESTY IEPARAMETRYCZE Testy nieparametryczne (bra założeń dotyczących rozładu zmiennej) 1. Sala pomiaru zmiennej: nominalna (jaościowa: jest-nie ma, tai-śmai-owai, itd.), porządowa (olejność, bonitacja itp.); nie musi być ciągła. Często: wyorzystanie metod rangowych (raningu obserwacji zamiast wartości przyjmowanych przez zmienną); wyorzystanie częstości (liczebności las obserwacji) 3. Zalety: odporność na obserwacje odstające, prostota obliczeń (nie zawsze!) 4. Wady: jeżeli próba danych spełnia założenia dotyczące testu parametrycznego, wtedy test nieparametryczny ma niższą moc (1- β); utrata informacji (o wartościach cechy, różnicach między nimi itp.) przez zastosowanie rang

TEST U MAA WHITEYA test dla dwóch prób (odp. testu t dla dwóch prób niezależnych) oblicza się statystyę U gdzie: R oznacza sumę rang; n 1, n - liczebności w badanych grupach; statystyę U oblicza się zarówno dla R1 (suma rang w I grupie) ja i dla R (suma rang w II grupie); mniejsza wartość stanowi statystyę testową. dla prób o liczebności 0, rozład U jest w przybliżeniu normalny, stosuje się wzór: Cieawosta: w tym teście odrzucamy H 0 jeśli U T < U MAX!!!

IE TESTY IEPARAMETRYCZE TEST WILCOXOA nieparametryczna alternatywa dla testu t dla par sorelowanych (podobnie ja test Manna-Whitneya weryfiuje równość median, a nie średnich z dwóch prób) często używany do porównywania danych zebranych przed i po esperymencie obliczenia odbywają się na rangach wartości bezwzględnych różnic w parach obserwacji TEST KOŁMOGOROWA-SMIROWA do porównywania rozładów dwóch prób, albo dla jednej próby (test zgodności, np. z rozładem normalnem) najczęściej: dla danych o sali porządowej (bonitacja) TEST KRUSKALA-WALLISA test porównujący (nieznane) rozłady zmiennej w ponad populacjach uważany za nieparametryczny odpowiedni jednoczynniowej analizy wariancji