Wykład 8 Dane kategoryczne

Wykład 8 Dane kategoryczne Wrocław, 19.04.2017r

Zmienne kategoryczne 1 Przykłady zmiennych kategorycznych 2 Zmienne nominalne, zmienne ordynalne (porządkowe) 3 Zmienne dychotomiczne

kodowanie zmiennych 1 Zmienne dychotomiczne - kodujemy jako 0 i 1 lub 1 i 1 2 Zmienne z liczbą kategorii > 2 - stosujemy zbiór sztucznych zmiennych 0 1; liczba wprowadzonych zmiennych musi być mniejsza o jeden od liczby kategorii. Np. zmienną kolor włosów z kategoriami: blond, czarne, inne można kodować: kolor włosów blond 0 0 czarne 0 1 inne 1 0 3 Zmienne z liczbą kategorii > 2 - można kodować kolejnymi liczbami naturalnymi

Dokładny test Fishera test niezależności jak i jednorodności rozkładów stosowany dla danych dostępnych w formie tablicy wielodzielnej 2x2 małe liczebności, całkowita liczba obserwacji 20 stosowany zamiast testu χ 2 tablica kontyngencji B B A n 11 n 12 A n 21 n 22

Dokładny test Fishera Stosuje się dokładny rozkład obliczając wartości prawdopodobieństw otrzymania określonego układu zaobserwowanych częstości, zgodnie z rozkładem hipergeometrycznym, wg wzoru: p = ( n11+n12 )( n21+n22 ) n11 n21 ( N ) n11+n21 Wyznacza się możliwe kombinacje liczebności komórek w oparciu o liczebności brzegowe Rozszerzenie na tablice większe niż 2x2 - test Fisher - Frddman - Halton

Dokładny test Fishera - Przykład 8.1 Prowadzono badania w celu sprawdzenia czy podjęcie decyzji o przejściu na diatę jest zależne od płci, otrzymując następujące wyniki: K M TAK 8 2 NIE 3 10 Testujemy hipotezę: H 0 : Decyzja o przejściu na dietę zalezy od płci H 1 : Decyzja o przejściu na dietę nie zależy od płci

Przykład 8.1 - c.d. Mamy tabelę K M suma TAK 8 2 10 NIE 3 10 13 suma 11 12 23 Wyznaczamy prawdopodobieństwo takiego układu: P(n 11 = 8, n 12 = 2, n 21 = 3, n 22 = 10) = ( 10 ) ( 8 13 ) 3 ( 23 ) = 0.009518682 11

Przykład 8.1 - c.d. Rozważamy wszystkie inne możliwe tabele z tymi samymi sumami: I K M suma TAK 7 3 10 NIE 4 9 13 suma 11 12 23 P = 0.06345788 II K M suma TAK 6 4 10 NIE 5 8 13 suma 11 12 23 P = 0.1998923 III K M suma TAK 5 5 10 NIE 6 7 13 suma 11 12 23 P = 0.3198277 IV K M suma TAK 4 6 10 NIE 7 6 13 suma 11 12 23 P = 0.2665231 V K M suma TAK 3 7 10 NIE 8 5 13 suma 11 12 23 P = 0.1142242 VI K M suma TAK 2 8 10 NIE 9 4 13 suma 11 12 23 P = 0.0237967 VII K M suma TAK 1 9 10 NIE 10 3 13 suma 11 12 23 P = 0.002115263 VIII K M suma TAK 0 10 10 NIE 11 2 13 suma 11 12 23 P = 5.768898 10 5 V K M suma TAK 9 1 10 NIE 2 11 13 suma 11 12 23 P = 0.0005768898 V K M suma TAK 10 0 10 NIE 1 12 13 suma 11 12 23 P = 9.61483 10 6 Wyznaczamy p - wartość: p = 0.009518682 + 0.002115263 + 5.768898 10 5 + 0.0005768898 + 9.61483 10 6 = 0.01227814

Przykład 8.1 - pakiet R fisher. test ( rbind (c (8,2),c (3,10) )) Fisher s Exact Test for Count Data data: rbind(c(8, 2), c(3, 10)) p-value = 0.01228 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 1.34348 172.78045 sample estimates: odds ratio 11.52638

Test McNemary test jednorodności rozkładów dla prób powiązanych stosowany dla zmiennych dychotomicznych

Test McNemary Niech (X, Y ) będzie dwuwymiarowym wektorem losowym, dla którego zmienne X i Y są typu dychotomicznego i przyjmują wyłącznie wartości { 1, +1} Problem testowania hipotez możemy zapisać jako: H 0 : cechy są niezależne H 1 : cechy są zależne

Test McNemar Statystyka testowa postaci χ 2 = (n 12 n 21 ) 2 n 12 + n 21, przy prawdziwości H 0 ma rozkład chi kwadrat z jednym stopniem swobody rzędu 1 α Obszar odrzucenia hipotezy zerowej jest postaci C : [χ 2 1 α(1), )

Przykład 8.2 Od 50 osób zakażonych pewną bakterią pobrano po 2 próbki, po czym badano dla tych próbek wzrost baktrii na dwóch różnych pożywkach. Ocenić na poziomie istotności 0.05 czy wzrost bakterii jest zależny od rodzaju pożywki? pożywka I wzrost brak wzrostu pożywka II wzrost 20 13 brak wzrostu 4 13

Przykład 8.2 - c.d. Testujemy hipotezę: H 0 : rodzaj pożywki nie wpływa na wzrost bakterii Przy alternatywie: H 1 : rodzaj pożywki wpływa na wzrost bakterii Wartość statystyki testowej: χ 2 = (n 12 n 21 ) 2 (13 4)2 = n 12 + n 21 13 + 4 = 3.76 Obszar krytyczny jest postaci C : [3.84, ) Zatem rodzaj pożywki nie wpływa na wzrost bakterii.

Pakiet R - przykład 8.2 mcnemar. test ( rbind (c (20,13),c (4,13) ),correct =F) McNemar s Chi-squared test data: rbind(c(20, 13), c(4, 13)) McNemar s chi-squared = 3.7647, df = 1, p-value = 0.05235

Test Q Cochrana uogólnienie testu McNemary na przypadek k > 2 prób zależnych test jednorodności każda z wartości w dowolnej próbie może być zaklasyfikowana do jednej z dwóch kategorii

Test Q Cochrana Model: Próba losowa ((X 11,..., X k1 ),..., (X 1n,..., X kn )) rozmiaru n z populacji określonej przez rozkład wektora (Y 1,..., Y k ), którego współrzędne mają charakter dychotomiczny. Hipotezy H 0 : X 1,..., X k mają jednakowy rozkład H 1 : co najmniej dwie ze zmiennych X 1,..., X k mają różne rozkłady.

Test Q Cochrana Statystyka testowa C = ( k n ) 2 C ij, R = j=1 i=1 Q = (k 1)(kC T 2 ) kt R 2 n k k n C ij, T = C ij, i=1 j=1 j=1 i=1 gdzie C ij oznacza i - tą obserwację w j-tej próbie. Przy prawdziwości H 0 statystyka testowa ma rozkład χ 2 (k 1)

Iloraz szans (Odds ratio) Niech p A oznacza prawdopodobieństwo pojawienia się pewnego określonego zdarzenia w ustalonych warunkach A. Szansą sukcesu nazywamy iloraz Szansą porażki nazywamy iloraz 1 p A p A p A 1 p A Ilorazem szans (Odds ratio) nazywamy stosunek szansy sukcesu do szansy porażki OR A = p ( ) A/(1 p A ) 2 pa = (1 p A )/p A 1 p A

Iloraz szans (Odds ratio) Niech p A i p B oznaczają prawdopodobieństwa pojawienia się pewnego określonego zdarzenia w dwóch grupach badanych jednostek, A i B odpowiednio. Ilorazem szans dla dwóch grup nazywamy stosunek szansy sukcesu w jednej grupie do szansy sukcesu w drugiej grupie OR = p A/(1 p A ) p B /(1 p B ) = p A(1 p B ) p B (1 p A )

Iloraz szans OR = 1 implikuje, że p A = p B, tj. rozważane zdarzenie jest jednakowo prawdopodobne w ubu grupach. OR > 1 oznacza, że rozpatrywane zdarzenie jest bardziej prawdopodobne w grupie A

Test ilorazu szans Dla danej tablicy kontyngencji: Iloraz szans wyraża się jako: B B A n 11 n 12 A n 21 n 22 OR = n 11n 22 n 21 n 12

Test ilorazu szans (Odds ratio) Testujemy hipotezę: H 0 : OR = 1 H 0 : OR 1 Statystyka testowa postaci: Z = ln(or) 1 n 11 + 1 n 12 + 1 n 21 + 1 n 22 przy prawdiwości hipotezy zerowej ma rozkład N(0, 1)

Przykład 8.3 Poniżesze dane przedstawiają dane dotyczące zatrudnienia w jednej z firm w zależności od przynależności do konkretnej grupy wiekowej. zatrudnieni młodzi starzy zwolnieni 13 1 pracujący 13 11 Czy możemy twierdzić, że w jednej z grup szanse na zwolnienie są większe? H 0 : OR = 1 H 0 : OR 1

Obliczamy OR = n 11n 22 13 11 = n 21 n 12 1 13 = 13 Następnie wyznaczamy wartość statystyki testowej: Z = ln(11) = 1 13 + 1 11 + 1 1 + 1 13 = 2.397 1.115 = 2.149 Obszar krytyczny, przy poziomie istotności α = 0.05, jest postaci: C : (, u 0.975 ] [u 0.975, ) C : (, 1.96] [1.96, )

Polecane literatura: P.I. Good, Resampling Methods. A Practical Guide to Data Analysis, 2005 E.L. Lehmann,Teoria estymacji punktowej, PWN Warszawa 1991 R. Magiera Modele i Metody Statystyki Matematycznej, część II.