Statystyka matematyczna Test χ 2. Wrocław, 18.03.2016r

Podobne dokumenty
STATYSTYKA MATEMATYCZNA

Wykład 11 Testowanie jednorodności

Wykład 8 Dane kategoryczne

METODY STATYSTYCZNE W BIOLOGII

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

Wykład 10 Testy jednorodności rozkładów

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

STATYSTYKA MATEMATYCZNA

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Testowanie hipotez statystycznych.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR

Testowanie hipotez statystycznych.

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

STATYSTYKA MATEMATYCZNA

Kolokwium ze statystyki matematycznej

STATYSTYKA MATEMATYCZNA

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Wykład 3 Hipotezy statystyczne

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Testowanie hipotez statystycznych.

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Elementarne metody statystyczne 9

STATYSTYKA MATEMATYCZNA WYKŁAD 5 TEST T

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Statystyczna analiza danych

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Wykład 9 Testy rangowe w problemie dwóch prób

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Testy post-hoc. Wrocław, 6 czerwca 2016

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Wydział Matematyki. Testy zgodności. Wykład 03

Wykład 7 Testowanie zgodności z rozkładem normalnym

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym

Pytanie: Kiedy do testowania hipotezy stosujemy test F (Fishera-Snedecora)?

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Zadanie 1 Odp. Zadanie 2 Odp. Zadanie 3 Odp. Zadanie 4 Odp. Zadanie 5 Odp.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny?

Własności statystyczne regresji liniowej. Wykład 4

1 Estymacja przedziałowa

Test t-studenta dla jednej średniej

Statystyka matematyczna. Wykład VI. Zesty zgodności

STATYSTYKA MATEMATYCZNA

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Badania eksperymentalne

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

STATYSTYKA

Przykład 1. (A. Łomnicki)

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka matematyczna Testowanie hipotez dla średnich w rozkładzie normalnym. Wrocław, r

Testowanie hipotez statystycznych

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Badanie zależności pomiędzy zmiennymi

STATYSTYKA I DOŚWIADCZALNICTWO

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Testowanie hipotez statystycznych

Rozkłady statystyk z próby

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Testowanie hipotez statystycznych

Estymacja parametrów rozkładu cechy

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Weryfikacja hipotez statystycznych

Statystyka matematyczna dla leśników

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Testowanie hipotez statystycznych

TECHNIKA DRZWI ZATRZAŚNIĘTE PRZED NOSEM

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Transkrypt:

Statystyka matematyczna Test χ 2 Wrocław, 18.03.2016r

Zakres stosowalności Testowanie zgodności Testowanie niezależności Test McNemara Test ilorazu szans

Copyright 2014, Joanna Szyda ZAKRES STOSOWALNOŚCI TESTÓW Testowanie zależności pomiędzy kategoriami 1. Dane w formie częstości ilość obserwacji w danej kategorii (%, średnia, prawdopodobieństwo, ) 2. Dane podzielone na kategorie nominalne, porządkowe, (ciągłe ) 3. Nie należy stosować testów gdy: Oczekiwana częstotliwość dla pewnych kategorii jest mała ( < 5 )

Test χ 2 zgodności

Test Chi-kwadrat zgodności Niech X = (X 1, X 2,..., X n ) będzie próbą o dystrybuancie F. Testujemy hipotezę: Statystyka testowa jest postaci: χ 2 = H 0 : F = F 0 H 1 : F F 0 k i=1 (N i np i ) 2 np i, gdzie: n - liczba wszystkich obserwacji, k - liczba klas, N i - liczba obserwacji w i - tej klasie, p i - teoretyczne prawdopodobieństwo przy prawdziwej H 0. Odrzucamy hipotezę zerową, gdy χ 2 > χ 2 1 α(k 1)

Przykład 7.1 TEST 2 KLASYFIKACJA JEDNOCZYNNIKOWA KOLOR Biały CZĘSTOŚĆ Żółty Żółty 8 Żółty Czerwony Czerwony 5 Żółty Biały Żółty 4 Żółty Żółty SUMA Czerwony 17 Biały Czerwony Żółty Czerwony Czerwony Biały Żółty Biały 1. Klasyfikacja danych wg pojedynczego kryterium 2. Kolor kwiatów krokusa PRÓBA DANYCH Copyright 2010, Joanna Szyda

Przykład 7.1 - c.d. Testujemy hipotezę: H 0 : wszystkie kolory występują jednakowo często H 1 : kolory występują z różną częstością W tym przypadku jest to równoważne: H 0 : p 1 = p 2 = p 3 H 1 : p i p j, i, j = 1, 2, 3

Przykład 7.1 - c.d. żółty czerwony biały N i 8 5 4 p i 1/3 1/3 1/3 Wyznaczamy wartość statystyki testowej: χ 2 = 3 i=1 (N i np i ) 2 np i = (8 17/3)2 + 17/3 = 1.53 (5 17/3)2 (4 17/3)2 + 17/3 17/3 =

Przykład 7.1 - c.d. Statystyka testowa χ 2 = 1.53 Ustalmy poziom istotności α = 0.05 kwantyl rozkładu Chi kwadrat rzędu 0.95 z 3 1 = 2 stopniami swobody jest równy: χ 2 0.95 (2) = 5.99 stąd zbiór krytyczny jest postaci: C : (5.99, ). Zatem nie ma podstaw do odrzucenia hipotezy zerowej, kwiaty różnych kolorów występują z jednakową częstością.

Test χ 2 niezależności

Test χ 2 niezależności Testujemy hipotezę H 0 : cechy są niezależne H 1 : cechy są zależne Formalnie problem wygląda następująco Niech ((X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n )) oznacza próbę niezależnych par zmiennych losowych, dla których dla każdej pary oznaczamy przez p ij = P(X = x i, Y = y j ), i = 1, 2,..., l, j = 1, 2,..., k, natomiast rozkłady brzegowe przez p i = P(X = x i ) = l j=1 p ij oraz p j = P(Y = y i ) = l i=1 p ij. Testujemy hipotezę: H 0 : p ij = p i p j, dla wszystkich i = 1, 2,... l, j = 1, 2,..., k H 1 : p ij p i p j, dla co najmniej jednej pary (i, j)

Test χ 2 niezależności Statystyka testowa jest postaci: χ 2 = ( l k N ij N ) 2 i. N.j n, N i. N.j i=1 j=1 n gdzie l - liczba klas dla cechy pierwszej, k - liczba klas dla cechy drugiej, n - liczba wszystkich obserwacji, N ij liczba występowania obserwacji (x i, x j ), N i. = k j=1 N ij, N.j = l i=1 N ij. Przy H 0 statystyka χ 2 ma rozkład chi kwadrat z (k-1)(l-1) stopniami swobody. Zbiór krytyczny postaci: C = [χ 2 (1 α, (k 1)(l 1)), )

Tablice kontyngencji Y B 1 B 2... B k X A 1 N 11 N 12... N 1k N 1 A 2 N 21 N 22... N 2k N 2..... A l N l1 N l2... N lk N l N 1 N 2... N k n

Przykład 7.2 TEST 2 KLASYFIKACJA DWUCZYNNIKOWA 1. Klasyfikacja danych wg dwu kryteriów PRÓBA DANYCH 2. Liczebność słoni w Parku Narodowym Mikumi, Tanzania Pora samotny samiec grupa samców kategoria grupa rodzinna grupa rodzinna + samiec sucha 43 4 196 7 deszczowa 92 17 195 8 Copyright 2010, Joanna Szyda

Przykład 7.2 - c.d Częstości obserwowane Częstości oczekiwane kat B 1 B 2 B 3 B 4 suma pora sucha 43 4 196 7 250 deszczowa 92 17 195 8 312 suma 135 21 391 15 562 kat B 1 B 2 B 3 B 4 pora 250 135 sucha 562 250 deszczowa 312 135 21 391 15 562

Przykład 7.2 -c.d Częstości obserwowane Częstości oczekiwane kat B 1 B 2 B 3 B 4 suma pora sucha 43 4 196 7 250 deszczowa 92 17 195 8 312 suma 135 21 391 15 562 kat B 1 B 2 B 3 B 4 pora sucha 60.5 250 deszczowa 312 391 562 312 135 21 391 15 562

Przykład 7.2 -c.d Częstości obserwowane Częstości oczekiwane kat B 1 B 2 B 3 B 4 pora sucha 43 4 196 7 deszczowa 92 17 195 8 kat B 1 B 2 B 3 B 4 pora sucha 60.5 9.34 173.93 6.67 deszczowa 74.95 11.66 217.07 8.33

Przykład 7.2 - c.d. Testujemy hipotezę: H 0 : pora roku i liczebność słoni różnych kategoriach są niezależne Przy alternatywie: H 1 : zależność liczebości słoni w różnych kategoriach od pory roku Statystyka testowa jest postaci: χ 2 = ( 2 4 N ij N ) 2 i. N.j n N i. N.j i=1 j=1 n = (43 60.5)2 60.5 + (92 74.95)2 + 74.95 + (4 9.34)2 + 9.34 (17 11.66)2 + 11.66 (196 173.93)2 + 173.93 (7 6.67)2 (8 8.33)2 + + 6.67 8.33 = 19.30 (195 217.07)2 + 217.07

Przykład 7.2 - c.d. Wartość statystyki testowej to: obszar krytyczny jest postaci: χ 2 = 19.30 C : [χ 2 0.95((2 1) (4 1)), ) = [7.81, ). Zatem odrzucamy hipotezę zerową, stąd liczebność słoni w poszczególnych grupach jest zależna od pory roku.

Test McNemar

Test McNemar Test jednorodności rozkładów dla prób powiązanych Stosowany dla zmiennych dychotomicznych Mamy daną tablicę kontyngencji B B A n 11 n 12 A n 21 n 22

Test McNemar Statystyka testowa postaci χ 2 = (n 12 n 21 ) 2 n 12 + n 21 ma rozkład chi kwadrat z jednym stopniem swobody rzędu 1 α Obszar odrzucenia hipotezy zerowej jest postaci C : [χ 2 1 α(1), )

Przykład 7.3 TEST McNEMARA PRÓBA DANYCH 1. Wzrost bakterii Mycobacterium tuberculosis na pożywkach (A / B) 2. Próbki pobrane od 50 chorych 3. Dane sparowane (ten sam pacjent) B A wzrost brak wz. wzrost 17 12 brak wz. 5 16 Copyright 2011, Joanna Szyda

Przykład 7.3 - c.d. Testujemy hipotezę: H 0 : rodzaj pożywki nie wpływa na wzrost bakterii Przy alternatywie: H 1 : rodzaj pożywki wpływa na wzrost bakterii Statystyka testowa jest równa : χ 2 = (n 12 n 21 ) 2 (12 5)2 = n 12 + n 21 12 + 5 = 2.88 Obszar krytyczny jest postaci C : [3.84, )

Test ilorazu szans

TEST ILORAZU SZANS PRÓBA DANYCH 1. Związek występowania raka przełyku ze spożywaniem alkoholu 2. Zbadano 975 osób Wystąpienie raka przełyku Spożycie alkoholu w ilości powyżej 80 g/dzień Spożycie alkoholu Rak przełyku tak nie >80 g/24h 96 109 80 g/24h 104 666 Copyright 2014, Joanna Szyda

Copyright 2015, Joanna Szyda TEST ILORAZU SZANS 1. Określenie hipotez H 0 i H 1 H 0 : prawdopodobieństwo wystąpienie raka przełyku nie zależy od ilości spożywanego alkoholu H 1 : prawdopodobieństwo wystąpienie raka przełyku zależy od ilości spożywanego alkoholu H 0 : P(r) alk = P(r) n_alk H 1 : P(r) alk P(r) n_alk 2. Ustalenie poziomu istotności MAX = 0.05

Copyright 2015, Joanna Szyda TEST ILORAZU SZANS 3. Wybór i obliczenie wartości testu statystycznego Spożycie alkoholu Rak przełyku Tak nie Szansa P(r) >80 g/24h 96 109 90/109 80 g/24h 104 666 104/666

Copyright 2015, Joanna Szyda TEST ILORAZU SZANS 4. Określenie rozkładu testu: 5. Obliczenie wartości t : 6. Decyzja: t < max H 0 H 1 prawdopodobieństwo wystąpienie raka przełyku zależy od ilości spożywanego alkoholu Excel: przykład

2 Copyright 2011 Joanna Szyda

QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ? Gavin et al. (1994) J. Ped. Psy. 24: 355-365 Badanie obejmuje osoby hospitalizowane z powodu astmy Badano 60 hospitalizowanych osób - etap 1 Po roku na ponowne badania zgłosiło się 30 (z 60) osób etap 2 Porównywano liczebności 30 osób, które zgłosiły się na ponowne badania z 30 osobami, które się nie zgłosiły, w zależności od płci, wieku, rasy, itd. Copyright 2010, Joanna Szyda

QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ?

QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ? 1. Klasyfikacja pojedyncza 2. Klasyfikacja podwójna 3. Test McNemara

QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ? Spencer et al. (1998) Am. J. Psychiatry 155: 693-695 Czy lek tomoxetina wpływa na ADHD Badano 21 osób w wieku 19-60 lat Etap 1: Dzień 0: rejestracja symptomów ADHD podawanie placebo przez 3 tygodnie Dzień 21 rejestracja symptomów ADHD >30% zmniejszenie nasilenia ADHD = poprawa Etap 2: podawanie tomoxetiny przez 3 tygodnie Dzień 21 rejestracja symptomów ADHD >30% zmniejszenie nasilenia ADHD = poprawa Copyright 2010, Joanna Szyda

QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ?

QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ? 1. Klasyfikacja pojedyncza 2. Klasyfikacja podwójna 3. Test McNemara

QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ? Junca et al. (2014) Plos One DOI:10.1371/journal.pone.0097333 Analiza wpływu wybranych czynników środowiskowych na zachowanie pszczół Eksperyment obejmował 40 osobników Cecha: SER = sting extension response (wysunięcie żądła) po stymulacji cieplnej Copyright 2015, Joanna Szyda

QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ? test

QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ? 1. Klasyfikacja pojedyncza 2. Klasyfikacja podwójna 3. Test McNemara

QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ? Uemura et al. (2001) NEJM 345: 784-789 Powiązanie chorób układu pokarmowego z zakażeniem Helicobacter pylori Badano 1525 pacjentów Copyright 2010, Joanna Szyda

QUIZ KTÓREJ WERSJI TESTU 2 UŻYĆ?