Wykład 8 Dane kategoryczne

Podobne dokumenty
Wykład 11 Testowanie jednorodności

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Statystyka matematyczna Test χ 2. Wrocław, r

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Wykład 9 Testy rangowe w problemie dwóch prób

Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017

Testowanie hipotez dla proporcji. Wrocław, 13 kwietnia 2015

Statystyka matematyczna Testowanie hipotez dla średnich w rozkładzie normalnym. Wrocław, r

Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 10 Testy jednorodności rozkładów

Elementarne metody statystyczne 9

Testowanie hipotez statystycznych.

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Wykład 7 Testowanie zgodności z rozkładem normalnym

STATYSTYKA MATEMATYCZNA

Statystyka matematyczna. Wykład VI. Zesty zgodności

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Testowanie hipotez statystycznych.

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Statystyczna analiza danych

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Założenia: wyniki są binarne próby są niezależne liczba prób n ustalona przed pomiarem to samo prawdopodobieństwo sukcesu we wszystkich próbach

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Wykład 5 Teoria eksperymentu

Przykład 1. (A. Łomnicki)

Kolokwium ze statystyki matematycznej

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

1 Estymacja przedziałowa

Elementy statystyki STA - Wykład 5

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Statystyka w analizie i planowaniu eksperymentu

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

STATYSTYKA

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Testy post-hoc. Wrocław, 6 czerwca 2016

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

Matematyka i statystyka matematyczna dla rolników w SGGW

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Wydział Matematyki. Testy zgodności. Wykład 03

Własności statystyczne regresji liniowej. Wykład 4

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Test t-studenta dla jednej średniej

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Wykład 11: Dane jakościowe. Rozkład χ 2. Test zgodności chi-kwadrat

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Testowanie hipotez statystycznych.

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Rozkłady dwuwymiarowe. Tablice dwudzielcze. Przykład (wstępny):

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Badanie zależności skala nominalna

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka Matematyczna Anna Janicka

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Statystyka matematyczna dla leśników

Testy nieparametryczne

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Statystyka Matematyczna Anna Janicka

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Statystyka w analizie i planowaniu eksperymentu

Wykład 12: Tablice wielodzielcze

Badania eksperymentalne

STATYSTYKA MATEMATYCZNA

Statystyka matematyczna i ekonometria

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych.

Estymacja parametrów rozkładu cechy

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Transkrypt:

Wykład 8 Dane kategoryczne Wrocław, 19.04.2017r

Zmienne kategoryczne 1 Przykłady zmiennych kategorycznych 2 Zmienne nominalne, zmienne ordynalne (porządkowe) 3 Zmienne dychotomiczne

kodowanie zmiennych 1 Zmienne dychotomiczne - kodujemy jako 0 i 1 lub 1 i 1 2 Zmienne z liczbą kategorii > 2 - stosujemy zbiór sztucznych zmiennych 0 1; liczba wprowadzonych zmiennych musi być mniejsza o jeden od liczby kategorii. Np. zmienną kolor włosów z kategoriami: blond, czarne, inne można kodować: kolor włosów blond 0 0 czarne 0 1 inne 1 0 3 Zmienne z liczbą kategorii > 2 - można kodować kolejnymi liczbami naturalnymi

Dokładny test Fishera test niezależności jak i jednorodności rozkładów stosowany dla danych dostępnych w formie tablicy wielodzielnej 2x2 małe liczebności, całkowita liczba obserwacji 20 stosowany zamiast testu χ 2 tablica kontyngencji B B A n 11 n 12 A n 21 n 22

Dokładny test Fishera Stosuje się dokładny rozkład obliczając wartości prawdopodobieństw otrzymania określonego układu zaobserwowanych częstości, zgodnie z rozkładem hipergeometrycznym, wg wzoru: p = ( n11+n12 )( n21+n22 ) n11 n21 ( N ) n11+n21 Wyznacza się możliwe kombinacje liczebności komórek w oparciu o liczebności brzegowe Rozszerzenie na tablice większe niż 2x2 - test Fisher - Frddman - Halton

Dokładny test Fishera - Przykład 8.1 Prowadzono badania w celu sprawdzenia czy podjęcie decyzji o przejściu na diatę jest zależne od płci, otrzymując następujące wyniki: K M TAK 8 2 NIE 3 10 Testujemy hipotezę: H 0 : Decyzja o przejściu na dietę zalezy od płci H 1 : Decyzja o przejściu na dietę nie zależy od płci

Przykład 8.1 - c.d. Mamy tabelę K M suma TAK 8 2 10 NIE 3 10 13 suma 11 12 23 Wyznaczamy prawdopodobieństwo takiego układu: P(n 11 = 8, n 12 = 2, n 21 = 3, n 22 = 10) = ( 10 ) ( 8 13 ) 3 ( 23 ) = 0.009518682 11

Przykład 8.1 - c.d. Rozważamy wszystkie inne możliwe tabele z tymi samymi sumami: I K M suma TAK 7 3 10 NIE 4 9 13 suma 11 12 23 P = 0.06345788 II K M suma TAK 6 4 10 NIE 5 8 13 suma 11 12 23 P = 0.1998923 III K M suma TAK 5 5 10 NIE 6 7 13 suma 11 12 23 P = 0.3198277 IV K M suma TAK 4 6 10 NIE 7 6 13 suma 11 12 23 P = 0.2665231 V K M suma TAK 3 7 10 NIE 8 5 13 suma 11 12 23 P = 0.1142242 VI K M suma TAK 2 8 10 NIE 9 4 13 suma 11 12 23 P = 0.0237967 VII K M suma TAK 1 9 10 NIE 10 3 13 suma 11 12 23 P = 0.002115263 VIII K M suma TAK 0 10 10 NIE 11 2 13 suma 11 12 23 P = 5.768898 10 5 V K M suma TAK 9 1 10 NIE 2 11 13 suma 11 12 23 P = 0.0005768898 V K M suma TAK 10 0 10 NIE 1 12 13 suma 11 12 23 P = 9.61483 10 6 Wyznaczamy p - wartość: p = 0.009518682 + 0.002115263 + 5.768898 10 5 + 0.0005768898 + 9.61483 10 6 = 0.01227814

Przykład 8.1 - pakiet R fisher. test ( rbind (c (8,2),c (3,10) )) Fisher s Exact Test for Count Data data: rbind(c(8, 2), c(3, 10)) p-value = 0.01228 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 1.34348 172.78045 sample estimates: odds ratio 11.52638

Test McNemary test jednorodności rozkładów dla prób powiązanych stosowany dla zmiennych dychotomicznych

Test McNemary Niech (X, Y ) będzie dwuwymiarowym wektorem losowym, dla którego zmienne X i Y są typu dychotomicznego i przyjmują wyłącznie wartości { 1, +1} Problem testowania hipotez możemy zapisać jako: H 0 : cechy są niezależne H 1 : cechy są zależne

Test McNemar Statystyka testowa postaci χ 2 = (n 12 n 21 ) 2 n 12 + n 21, przy prawdziwości H 0 ma rozkład chi kwadrat z jednym stopniem swobody rzędu 1 α Obszar odrzucenia hipotezy zerowej jest postaci C : [χ 2 1 α(1), )

Przykład 8.2 Od 50 osób zakażonych pewną bakterią pobrano po 2 próbki, po czym badano dla tych próbek wzrost baktrii na dwóch różnych pożywkach. Ocenić na poziomie istotności 0.05 czy wzrost bakterii jest zależny od rodzaju pożywki? pożywka I wzrost brak wzrostu pożywka II wzrost 20 13 brak wzrostu 4 13

Przykład 8.2 - c.d. Testujemy hipotezę: H 0 : rodzaj pożywki nie wpływa na wzrost bakterii Przy alternatywie: H 1 : rodzaj pożywki wpływa na wzrost bakterii Wartość statystyki testowej: χ 2 = (n 12 n 21 ) 2 (13 4)2 = n 12 + n 21 13 + 4 = 3.76 Obszar krytyczny jest postaci C : [3.84, ) Zatem rodzaj pożywki nie wpływa na wzrost bakterii.

Pakiet R - przykład 8.2 mcnemar. test ( rbind (c (20,13),c (4,13) ),correct =F) McNemar s Chi-squared test data: rbind(c(20, 13), c(4, 13)) McNemar s chi-squared = 3.7647, df = 1, p-value = 0.05235

Test Q Cochrana uogólnienie testu McNemary na przypadek k > 2 prób zależnych test jednorodności każda z wartości w dowolnej próbie może być zaklasyfikowana do jednej z dwóch kategorii

Test Q Cochrana Model: Próba losowa ((X 11,..., X k1 ),..., (X 1n,..., X kn )) rozmiaru n z populacji określonej przez rozkład wektora (Y 1,..., Y k ), którego współrzędne mają charakter dychotomiczny. Hipotezy H 0 : X 1,..., X k mają jednakowy rozkład H 1 : co najmniej dwie ze zmiennych X 1,..., X k mają różne rozkłady.

Test Q Cochrana Statystyka testowa C = ( k n ) 2 C ij, R = j=1 i=1 Q = (k 1)(kC T 2 ) kt R 2 n k k n C ij, T = C ij, i=1 j=1 j=1 i=1 gdzie C ij oznacza i - tą obserwację w j-tej próbie. Przy prawdziwości H 0 statystyka testowa ma rozkład χ 2 (k 1)

Iloraz szans (Odds ratio) Niech p A oznacza prawdopodobieństwo pojawienia się pewnego określonego zdarzenia w ustalonych warunkach A. Szansą sukcesu nazywamy iloraz Szansą porażki nazywamy iloraz 1 p A p A p A 1 p A Ilorazem szans (Odds ratio) nazywamy stosunek szansy sukcesu do szansy porażki OR A = p ( ) A/(1 p A ) 2 pa = (1 p A )/p A 1 p A

Iloraz szans (Odds ratio) Niech p A i p B oznaczają prawdopodobieństwa pojawienia się pewnego określonego zdarzenia w dwóch grupach badanych jednostek, A i B odpowiednio. Ilorazem szans dla dwóch grup nazywamy stosunek szansy sukcesu w jednej grupie do szansy sukcesu w drugiej grupie OR = p A/(1 p A ) p B /(1 p B ) = p A(1 p B ) p B (1 p A )

Iloraz szans OR = 1 implikuje, że p A = p B, tj. rozważane zdarzenie jest jednakowo prawdopodobne w ubu grupach. OR > 1 oznacza, że rozpatrywane zdarzenie jest bardziej prawdopodobne w grupie A

Test ilorazu szans Dla danej tablicy kontyngencji: Iloraz szans wyraża się jako: B B A n 11 n 12 A n 21 n 22 OR = n 11n 22 n 21 n 12

Test ilorazu szans (Odds ratio) Testujemy hipotezę: H 0 : OR = 1 H 0 : OR 1 Statystyka testowa postaci: Z = ln(or) 1 n 11 + 1 n 12 + 1 n 21 + 1 n 22 przy prawdiwości hipotezy zerowej ma rozkład N(0, 1)

Przykład 8.3 Poniżesze dane przedstawiają dane dotyczące zatrudnienia w jednej z firm w zależności od przynależności do konkretnej grupy wiekowej. zatrudnieni młodzi starzy zwolnieni 13 1 pracujący 13 11 Czy możemy twierdzić, że w jednej z grup szanse na zwolnienie są większe? H 0 : OR = 1 H 0 : OR 1

Obliczamy OR = n 11n 22 13 11 = n 21 n 12 1 13 = 13 Następnie wyznaczamy wartość statystyki testowej: Z = ln(11) = 1 13 + 1 11 + 1 1 + 1 13 = 2.397 1.115 = 2.149 Obszar krytyczny, przy poziomie istotności α = 0.05, jest postaci: C : (, u 0.975 ] [u 0.975, ) C : (, 1.96] [1.96, )

Polecane literatura: P.I. Good, Resampling Methods. A Practical Guide to Data Analysis, 2005 E.L. Lehmann,Teoria estymacji punktowej, PWN Warszawa 1991 R. Magiera Modele i Metody Statystyki Matematycznej, część II.