Statystyka matematyczna Test χ 2 Wrocław, 18.03.2016r
Zakres stosowalności Testowanie zgodności Testowanie niezależności Test McNemara Test ilorazu szans
Copyright 2014, Joanna Szyda ZAKRES STOSOWALNOŚCI TESTÓW Testowanie zależności pomiędzy kategoriami 1. Dane w formie częstości ilość obserwacji w danej kategorii (%, średnia, prawdopodobieństwo, ) 2. Dane podzielone na kategorie nominalne, porządkowe, (ciągłe ) 3. Nie należy stosować testów gdy: Oczekiwana częstotliwość dla pewnych kategorii jest mała ( < 5 )
Test χ 2 zgodności
Test Chi-kwadrat zgodności Niech X = (X 1, X 2,..., X n ) będzie próbą o dystrybuancie F. Testujemy hipotezę: Statystyka testowa jest postaci: χ 2 = H 0 : F = F 0 H 1 : F F 0 k i=1 (N i np i ) 2 np i, gdzie: n - liczba wszystkich obserwacji, k - liczba klas, N i - liczba obserwacji w i - tej klasie, p i - teoretyczne prawdopodobieństwo przy prawdziwej H 0. Odrzucamy hipotezę zerową, gdy χ 2 > χ 2 1 α(k 1)
Przykład 7.1 TEST 2 KLASYFIKACJA JEDNOCZYNNIKOWA KOLOR Biały CZĘSTOŚĆ Żółty Żółty 8 Żółty Czerwony Czerwony 5 Żółty Biały Żółty 4 Żółty Żółty SUMA Czerwony 17 Biały Czerwony Żółty Czerwony Czerwony Biały Żółty Biały 1. Klasyfikacja danych wg pojedynczego kryterium 2. Kolor kwiatów krokusa PRÓBA DANYCH Copyright 2010, Joanna Szyda
Przykład 7.1 - c.d. Testujemy hipotezę: H 0 : wszystkie kolory występują jednakowo często H 1 : kolory występują z różną częstością W tym przypadku jest to równoważne: H 0 : p 1 = p 2 = p 3 H 1 : p i p j, i, j = 1, 2, 3
Przykład 7.1 - c.d. żółty czerwony biały N i 8 5 4 p i 1/3 1/3 1/3 Wyznaczamy wartość statystyki testowej: χ 2 = 3 i=1 (N i np i ) 2 np i = (8 17/3)2 + 17/3 = 1.53 (5 17/3)2 (4 17/3)2 + 17/3 17/3 =
Przykład 7.1 - c.d. Statystyka testowa χ 2 = 1.53 Ustalmy poziom istotności α = 0.05 kwantyl rozkładu Chi kwadrat rzędu 0.95 z 3 1 = 2 stopniami swobody jest równy: χ 2 0.95 (2) = 5.99 stąd zbiór krytyczny jest postaci: C : (5.99, ). Zatem nie ma podstaw do odrzucenia hipotezy zerowej, kwiaty różnych kolorów występują z jednakową częstością.
Test χ 2 niezależności
Test χ 2 niezależności Testujemy hipotezę H 0 : cechy są niezależne H 1 : cechy są zależne Formalnie problem wygląda następująco Niech ((X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n )) oznacza próbę niezależnych par zmiennych losowych, dla których dla każdej pary oznaczamy przez p ij = P(X = x i, Y = y j ), i = 1, 2,..., l, j = 1, 2,..., k, natomiast rozkłady brzegowe przez p i = P(X = x i ) = l j=1 p ij oraz p j = P(Y = y i ) = l i=1 p ij. Testujemy hipotezę: H 0 : p ij = p i p j, dla wszystkich i = 1, 2,... l, j = 1, 2,..., k H 1 : p ij p i p j, dla co najmniej jednej pary (i, j)
Test χ 2 niezależności Statystyka testowa jest postaci: χ 2 = ( l k N ij N ) 2 i. N.j n, N i. N.j i=1 j=1 n gdzie l - liczba klas dla cechy pierwszej, k - liczba klas dla cechy drugiej, n - liczba wszystkich obserwacji, N ij liczba występowania obserwacji (x i, x j ), N i. = k j=1 N ij, N.j = l i=1 N ij. Przy H 0 statystyka χ 2 ma rozkład chi kwadrat z (k-1)(l-1) stopniami swobody. Zbiór krytyczny postaci: C = [χ 2 (1 α, (k 1)(l 1)), )
Tablice kontyngencji Y B 1 B 2... B k X A 1 N 11 N 12... N 1k N 1 A 2 N 21 N 22... N 2k N 2..... A l N l1 N l2... N lk N l N 1 N 2... N k n
Przykład 7.2 TEST 2 KLASYFIKACJA DWUCZYNNIKOWA 1. Klasyfikacja danych wg dwu kryteriów PRÓBA DANYCH 2. Liczebność słoni w Parku Narodowym Mikumi, Tanzania Pora samotny samiec grupa samców kategoria grupa rodzinna grupa rodzinna + samiec sucha 43 4 196 7 deszczowa 92 17 195 8 Copyright 2010, Joanna Szyda
Przykład 7.2 - c.d Częstości obserwowane Częstości oczekiwane kat B 1 B 2 B 3 B 4 suma pora sucha 43 4 196 7 250 deszczowa 92 17 195 8 312 suma 135 21 391 15 562 kat B 1 B 2 B 3 B 4 pora 250 135 sucha 562 250 deszczowa 312 135 21 391 15 562
Przykład 7.2 -c.d Częstości obserwowane Częstości oczekiwane kat B 1 B 2 B 3 B 4 suma pora sucha 43 4 196 7 250 deszczowa 92 17 195 8 312 suma 135 21 391 15 562 kat B 1 B 2 B 3 B 4 pora sucha 60.5 250 deszczowa 312 391 562 312 135 21 391 15 562
Przykład 7.2 -c.d Częstości obserwowane Częstości oczekiwane kat B 1 B 2 B 3 B 4 pora sucha 43 4 196 7 deszczowa 92 17 195 8 kat B 1 B 2 B 3 B 4 pora sucha 60.5 9.34 173.93 6.67 deszczowa 74.95 11.66 217.07 8.33
Przykład 7.2 - c.d. Testujemy hipotezę: H 0 : pora roku i liczebność słoni różnych kategoriach są niezależne Przy alternatywie: H 1 : zależność liczebości słoni w różnych kategoriach od pory roku Statystyka testowa jest postaci: χ 2 = ( 2 4 N ij N ) 2 i. N.j n N i. N.j i=1 j=1 n = (43 60.5)2 60.5 + (92 74.95)2 + 74.95 + (4 9.34)2 + 9.34 (17 11.66)2 + 11.66 (196 173.93)2 + 173.93 (7 6.67)2 (8 8.33)2 + + 6.67 8.33 = 19.30 (195 217.07)2 + 217.07
Przykład 7.2 - c.d. Wartość statystyki testowej to: obszar krytyczny jest postaci: χ 2 = 19.30 C : [χ 2 0.95((2 1) (4 1)), ) = [7.81, ). Zatem odrzucamy hipotezę zerową, stąd liczebność słoni w poszczególnych grupach jest zależna od pory roku.
Test McNemar
Test McNemar Test jednorodności rozkładów dla prób powiązanych Stosowany dla zmiennych dychotomicznych Mamy daną tablicę kontyngencji B B A n 11 n 12 A n 21 n 22
Test McNemar Statystyka testowa postaci χ 2 = (n 12 n 21 ) 2 n 12 + n 21 ma rozkład chi kwadrat z jednym stopniem swobody rzędu 1 α Obszar odrzucenia hipotezy zerowej jest postaci C : [χ 2 1 α(1), )
Przykład 7.3 TEST McNEMARA PRÓBA DANYCH 1. Wzrost bakterii Mycobacterium tuberculosis na pożywkach (A / B) 2. Próbki pobrane od 50 chorych 3. Dane sparowane (ten sam pacjent) B A wzrost brak wz. wzrost 17 12 brak wz. 5 16 Copyright 2011, Joanna Szyda
Przykład 7.3 - c.d. Testujemy hipotezę: H 0 : rodzaj pożywki nie wpływa na wzrost bakterii Przy alternatywie: H 1 : rodzaj pożywki wpływa na wzrost bakterii Statystyka testowa jest równa : χ 2 = (n 12 n 21 ) 2 (12 5)2 = n 12 + n 21 12 + 5 = 2.88 Obszar krytyczny jest postaci C : [3.84, )
Test ilorazu szans
TEST ILORAZU SZANS PRÓBA DANYCH 1. Związek występowania raka przełyku ze spożywaniem alkoholu 2. Zbadano 975 osób Wystąpienie raka przełyku Spożycie alkoholu w ilości powyżej 80 g/dzień Spożycie alkoholu Rak przełyku tak nie >80 g/24h 96 109 80 g/24h 104 666 Copyright 2014, Joanna Szyda
Copyright 2015, Joanna Szyda TEST ILORAZU SZANS 1. Określenie hipotez H 0 i H 1 H 0 : prawdopodobieństwo wystąpienie raka przełyku nie zależy od ilości spożywanego alkoholu H 1 : prawdopodobieństwo wystąpienie raka przełyku zależy od ilości spożywanego alkoholu H 0 : P(r) alk = P(r) n_alk H 1 : P(r) alk P(r) n_alk 2. Ustalenie poziomu istotności MAX = 0.05
Copyright 2015, Joanna Szyda TEST ILORAZU SZANS 3. Wybór i obliczenie wartości testu statystycznego Spożycie alkoholu Rak przełyku Tak nie Szansa P(r) >80 g/24h 96 109 90/109 80 g/24h 104 666 104/666
Copyright 2015, Joanna Szyda TEST ILORAZU SZANS 4. Określenie rozkładu testu: 5. Obliczenie wartości t : 6. Decyzja: t < max H 0 H 1 prawdopodobieństwo wystąpienie raka przełyku zależy od ilości spożywanego alkoholu Excel: przykład
2 Copyright 2011 Joanna Szyda
QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ? Gavin et al. (1994) J. Ped. Psy. 24: 355-365 Badanie obejmuje osoby hospitalizowane z powodu astmy Badano 60 hospitalizowanych osób - etap 1 Po roku na ponowne badania zgłosiło się 30 (z 60) osób etap 2 Porównywano liczebności 30 osób, które zgłosiły się na ponowne badania z 30 osobami, które się nie zgłosiły, w zależności od płci, wieku, rasy, itd. Copyright 2010, Joanna Szyda
QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ?
QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ? 1. Klasyfikacja pojedyncza 2. Klasyfikacja podwójna 3. Test McNemara
QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ? Spencer et al. (1998) Am. J. Psychiatry 155: 693-695 Czy lek tomoxetina wpływa na ADHD Badano 21 osób w wieku 19-60 lat Etap 1: Dzień 0: rejestracja symptomów ADHD podawanie placebo przez 3 tygodnie Dzień 21 rejestracja symptomów ADHD >30% zmniejszenie nasilenia ADHD = poprawa Etap 2: podawanie tomoxetiny przez 3 tygodnie Dzień 21 rejestracja symptomów ADHD >30% zmniejszenie nasilenia ADHD = poprawa Copyright 2010, Joanna Szyda
QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ?
QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ? 1. Klasyfikacja pojedyncza 2. Klasyfikacja podwójna 3. Test McNemara
QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ? Junca et al. (2014) Plos One DOI:10.1371/journal.pone.0097333 Analiza wpływu wybranych czynników środowiskowych na zachowanie pszczół Eksperyment obejmował 40 osobników Cecha: SER = sting extension response (wysunięcie żądła) po stymulacji cieplnej Copyright 2015, Joanna Szyda
QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ? test
QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ? 1. Klasyfikacja pojedyncza 2. Klasyfikacja podwójna 3. Test McNemara
QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ? Uemura et al. (2001) NEJM 345: 784-789 Powiązanie chorób układu pokarmowego z zakażeniem Helicobacter pylori Badano 1525 pacjentów Copyright 2010, Joanna Szyda
QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ?