Wykład 11: Dane jakościowe. Rozkład χ 2. Test zgodności chi-kwadrat

Podobne dokumenty
Wykład 14 Test chi-kwadrat zgodności

Rozkłady dwuwymiarowe. Tablice dwudzielcze. Przykład (wstępny):

Wykład 12: Tablice wielodzielcze

Badanie zależności zmiennych kolumnowej i wierszowej:

Wykład 10 Zrandomizowany plan blokowy

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Testowanie hipotez statystycznych.

Wykład 3 Hipotezy statystyczne

Testowanie hipotez statystycznych.

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Przykłady bloków: Przykład. Przyporządkowanie. Wykład 10 Zrandomizowany plan blokowy

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Testowanie hipotez statystycznych.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Uwaga! Test studenta dla pojedynczej próby, niekierunkowy. Wykład 9: Testy Studenta. Test Studenta dla jednej próby, kierunkowy

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Weryfikacja hipotez statystycznych

Przykłady bloków: Przykład. Przyporządkowanie. Wykład 9 Zrandomizowany plan blokowy

Wykład 8 Dane kategoryczne

Statystyka w analizie i planowaniu eksperymentu

Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny?

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka matematyczna dla leśników

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Wydział Matematyki. Testy zgodności. Wykład 03

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść II

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

166 Wstęp do statystyki matematycznej

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych.

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Prawdopodobieństwo i statystyka r.

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Zawartość. Zawartość

Estymacja parametrów rozkładu cechy

Testy zgodności. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 11

Statystyka matematyczna i ekonometria

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Prawdopodobieństwo i rozkład normalny cd.

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Wykład 10 Testy jednorodności rozkładów

KARTA KURSU. Kod Punktacja ECTS* 1

Rozkłady statystyk z próby

Wykład 11 Testowanie jednorodności

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR

Prawdopodobieństwo i statystyka

Statystyka matematyczna

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Zadania ze statystyki, cz.6

Metody Statystyczne. Metody Statystyczne

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Wykład 9 Wnioskowanie o średnich

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Testy dla dwóch prób w rodzinie rozkładów normalnych

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

1.1 Wstęp Literatura... 1

Elementy statystyki STA - Wykład 5

Testowanie hipotez statystycznych

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Transkrypt:

Wykład 11: Dane jakościowe Obserwacje klasyfikujemy do klas Zliczamy liczbę obserwacji w każdej klasie Jeżeli są tylko dwie klasy, to jedną z nich możemy nazwać sukcesem, a drugą porażką. Generalnie, liczba obserwacji w ustalonej klasie ma rozkład:... Jeżeli mamy więcej niż dwie klasy, to możemy się skoncentrować na jednej klasie albo rozważać wszystkie klasy na raz Przypomnienie: p (nieznane) prawdopodobieństwo sukcesu np. bycia w klasie 1 n liczba obserwacji. Obserwujemy y = # obserwacji w klasie 1. ˆp =... y ma rozkład..., Jeżeli np i n(1-p) są dość duże, to rozkład ten możemy aproksymować rozkładem... Rozkład χ 2 Definicja: Niech Y 1, Y k będą niezależnymi zmiennymi losowymi o rozkładzie N(0,1). kwadratów tych zmiennych ma rozkład χ 2 k (rozkład chikwadrat z k stopniami swobody). Test zgodności chi-kwadrat Rozważymy przypadek danych jakościowych Mamy próbę składającą się z n niezależnych obserwacji Będziemy testowali hipotezy o wartości prawdopodobieństw należenia do poszczególnych klas Do obliczania wartości krytycznych skorzystamy z przybliżenia rozkładem (normalnym i) chikwadrat, które działa dla dużych rozmiarów prób. Zakładamy wartości p i (prawdopodobieństwo ``bycia w i-tej klasie) Liczymy oczekiwaną liczbę obserwacji w każdej klasie: n p i Porównujemy z zaobserwowanymi (zob. dalej) Uwagi: Test stosujemy, gdy oczekiwana liczba obserwacji (np i ) w każdej z klas nie jest mniejsza od 5. Test jest w założeniu podobny do testu znaków, ale nie wykorzystuje rozkładu dwumianowego. 1

Prosty przypadek: dwie klasy Np. samiec/samica, tak/nie, sukces/porażka, poprawa/pogorszenie, itd. Badamy model genetyczny dziedziczenia pewnej cechy. Mamy dwie linie homozygotyczne muszki Drosophilae, jedną z czerwonymi oczami i jedną z fioletowymi oczami. Sugeruje się, że za kolor oczu odpowiedzialny jest tylko jeden gen i że allel oczu czerwonych dominuje nad allelem oczu fioletowych. Jeżeli założona hipoteza jest prawdziwa to w krzyżówce F2 stosunek liczby muszek z czerwonymi oczami do liczby muszek z fioletowymi oczami powinien być w przybliżeniu równy:... Aby zweryfikować tę hipotezę wyhodowano 43 muszki z populacji F2 (wykorzystując kilku rodziców z linii homozygotycznych). 29 z tych muszek miało czerwone oczy, a 14 fioletowe oczy. Klasy: Czerwone oczy; hipotetyczne prawdopodobieństwo p =... Oczekiwana liczba czerwonych: E1 =... Fioletowe oczy; hipotetyczne p =... Oczekiwana liczba: E2 =... Czy allel czerwonych oczu dominuje nad allelem fioletowych oczu? Niech p będzie p-stwem, że muszka w populacji F2 ma czerwone oczy H 0 : p =... ; H A :... Użyjemy testu zgodności chi-kwadrat Χ 2 s = Σ(O-E) 2 /E przy H0 ma w przybliżeniu rozkład chi-kwadrat z df = #klas - 1 =.... Testujemy na poziomie α = 0.05 Wartość krytyczna =... pˆ = Tablica wartości krytycznych z książki ``Introduction to the Practice of Statistics, D.S. Moore, G. P. McCabe 2

Χ 2 s = Σ(O-E)2 /E = Σ (zaobserwowana - oczekiwana) 2 /oczekiwana tutaj =... Wniosek: Możemy także testować przeciwko alternatywie kierunkowej np. H A : p < 0.75. W tym przypadku odrzucamy H0 gdy oba poniższe warunki są spełnione: X 2 s > χ2 1 (2α), tzn.... pˆ < 0.75 tzn. estymator odchyla się od hipotetycznej wartości w tym samym kierunku co H A Więcej niż 2 klasy U słodkiego groszku allel fioletowego koloru kwiatów (F) jest dominujący nad allelem czerwonego koloru (C) a allel wydłużonych ziaren pyłku (d) jest dominujący nad allelem okrągłych ziaren (o). Mamy rodziców homozygotycznych P1 z allelami dominującymi (FFdd) i rodziców homozygotycznych P2 z allelami recesywnymi (CCoo). W generacji F1 wszystkie groszki mają genotypy (...) i mają fenotypy... Groszki z populacji F1 krzyżujemy i dostajemy populację F2. Przypuszcza się, że geny kontrolujące obie cechy są odległe o 20 cm. Jeżeli jest to prawdą to w populacji F2 poszczególne fenotypy powinny występować w proporcjach 67.44 : 7.56 : 7.56 : 17.44 67.44% fioletowe/wydłużone FFdd albo FCdd albo FFdo albo FCdo, 7.56% fioletowe/okrągłe : FFoo albo FCoo, 7.56% czerwone/wydłużone = CCdd albo CCLdo, 17.44% czerwone/okrągłe = CCoo Wśród 381 osobników z populacji F2 zaobserwowano 284 fioletowe/wydłużone 21 fioletowe/okrągłe 21 czerwone/wydłużone 55 czerwone/okrągłe Czy geny są w odległości 20 cm? Niech p 1, p 2, p 3, p 4 będą p-stwami odpowiednio fioletowe/wydłużone, fioletowe/okragłe, czerwone/wydłużone, czerwone/okrągłe w populacji F2. H 0 : p 1 =0.6744, p 2 = 0.0756, p 3 =0.0756, p 4 =0.1744 ; p-stwa poszczególnych klas odpowiadają odległości 20 cm. H A : p-stwa klas nie odpowiadają odległości 20 cm. Użyjemy testu chi-kwadrat, df = #klas - 1 =... Χ 2 s = Σ(O-E)2 /E ma przy H 0 rozkład... Testujemy na poziomie α = 0.05; Wartość krytyczna =... Wartości oczekiwane liczby obserwacji w każdej klasie przy H 0 (n p i ): 3

Χ 2 s =... Wniosek:... Podsumowanie testu zgodności chi-kwadrat Definiujemy p i dla każdej klasy i formułujemy hipotezę. Jeżeli są tylko dwie klasy, to alternatywę można łatwo opisać za pomocą wzoru, może ona też być kierunkowa. Jeżeli mamy więcej niż dwie klasy, to alternatywę należy opisać słowami. Dla każdej klasy liczymy E i = np i. Sprawdzamy, czy wszystkie E i są nie mniejsze niż 5. (Aby można było stosować test chi-kwadrat) Liczymy Χ 2 s = Σ(O-E)2 /E sumując po wszystkich klasach. Porównujemy z wartością krytyczną z rozkładu χ 2 k-1 ; odrzucamy H 0, gdy statystyka jest większa od wartości krytycznej. Tablice wielodzielcze Najpierw tablice 2x2 : dwa rzędy i dwie kolumny Dane jakościowe z czterema klasami, które można połączyć w pary. Dwie typowe sytuacje: Dwie niezależne próby; w każdej obserwujemy jedną cechę o dwu wartościach Jedna próba; obserwujemy dwie różne cechy, z których każda może przyjmować dwie wartości. Przykład sytuacji 1 Próby to lekarstwo i placebo (lub dowolne dwa zabiegi); obserwowana zmienna to poprawa lub brak poprawy. próby samce" i samice" (dowolne dwie grupy, które chcemy porównać); obserwowana zmienna np. kolor oczu, ``fioletowe i czerwone. Przykład sytuacji 2 obserwujemy kolor oczu" (czerwone/fioletowe) i kształt skrzydła" (normalny/mniejszy) Oberwujemy, czy ludzie palą i czy ćwiczą 4 klasy; obserwacje w tabeli 2x2 Kszatłt skrzydła : normalne mniejsze Kolor oczu czerwone 39 18 fioletowe Testujemy niezależność zmiennych definiujących rzędy i kolumny. W tym przypadku będzie to odpowiadać testowaniu hipotezy, czy oba geny leżą na innych chromosomach. 11 32 4

Obserwowane Wynik Przykład (wstępny): Poprawa Brak poprawy Lekarstwo 15 11 26 zabieg Placebo 4 17 21 19 28 47 p 1 = p-stwo, że nastąpi poprawa, jeżeli pacjent bierze lekarstwo p 2 = p-stwo, że nastąpi poprawa, jeżeli pacjent bierze placebo H 0 : p 1 = p 2 H A : p 1 p 2 ( or p 1 > p 2 ) Niech poziom istotności α =0.01 W przeciwieństwie do testu zgodności, nie mamy hipotetycznych wartości na p. Zamiast tego, H 0 mówi, że oba p-stwa są takie same. Można to wyrazić w terminach niezależności. H A mówi, że p-stwa są różne, co oznacza, że zmienne ``zabieg i wynik nie są niezależne. ˆp 1 = ˆp 2 = Jakich wartości oczekiwalibyśmy, gdyby H 0 była prawdziwa? Poprawa nastąpiła u 19 pacjentów. Jest to 19/47 = 40.4% wszystkich badanych. 26 pacjentów brało lekarstwo. Jeżeli H 0 jest prawdziwa, to u około 40.4% z nich powinna nastąpić poprawa. Podobnie liczba pacjentów, u których nastąpiła poprawa mimo, że brali placebo powinna być bliska... Oczekiwane zabieg Lekarstwo Placebo Ponadto oczekujemy, że nie nastąpiła poprawa u... osób biorących Wynik Poprawa 10.5 8.5 19 lekarstwo i u... osób biorących placebo. Te oczekiwane wartości umieszczamy w Brak poprawy 15.5 12.5 28 podobnej tabeli. 26 21 47 5

Łączymy obie tabele: Ogólnie: E = (suma w rzędzie)(suma w kolumnie)/(całkowita suma ) Dla każdej z czterech klas. Aby stosować test chi-kwadrat, w każdej klasie E powinno być nie mniejsze niż 5. Oberwowane (Oczekiwane) Wynik Poprawa Brak poprawy zabieg Lekarstwo 15 (10.5) 11 (15.5) 26 Placebo 4 (8.5) 17 (12.5) 21 19 28 47 Czy u pacjentów biorących lekarstwo poprawa występuje częściej niż u pacjentów biorących placebo? p 1 = p-stwo poprawy u pacjentów biorących lekarstwo p 2 = p-stwo poprawy u pacjentów biorących placebo H 0 : p 1 = p 2 ; p-stwo poprawy jest takie samo w obu grupach (albo: wynik i zabieg są niezależne). H A : p 1 > p 2 ; p-stwo poprawy jest większe u pacjentów biorących lekarstwo Stosujemy test χ 2 dla niezależności X 2 s = Σ (O-E) 2 /E przy H 0 ma rozkład χ 2 1. Testujemy na poziomie istotności α = 0.01; odrzucamy H 0 gdy X 2 s >... [używamy kolumny 0.02 bo alternatywa jest kierunkowa] [Ponieważ alternatywa jest kierunkowa musimy wykonać kolejny krok] pˆ... 1 pˆ 2... Χ 2 s =... ˆp 1 ˆp 2 Stopnie swobody df = 1 dla tabeli 2x2. Ogólnie (#rzędów-1)(#kolumn-1) Wniosek:... Wartości krytyczne: Gdy H A jest niekierunkowa szukamy w kolumnie α, gdy jest kierunkowa w kolumnie 2α. 6

Co oznacza odrzucenie H 0? Czasami trzeba być ostrożnym przy formułowaniu wniosków. Gdy odrzucamy H 0, to mamy przesłanki, aby przypuszczać, że zmienne nie są niezależne. To jednak nie zawsze odpowiada związkowi przyczynowemu! Nasze badanie wskazuje, że stan pacjentów biorących lekarstwo częściej się poprawia, niż stan pacjentów biorących placebo. Tutaj kontrolowaliśmy zabieg, więc możemy przypuszczać, że istnieje związek przyczynowy. Gdybyśmy jednak testowali niezależność koloru oczu i kształtu skrzydeł u muszek owocówek nie moglibyśmy stwierdzić związku przyczynowego (np. Kolor oczu wpływa na kształt skrzydeł??). Możemy tylko powiedzieć, że oba fenotypy są zmiennymi zależnymi. 7