Wykład 14 Test chi-kwadrat zgodności



Podobne dokumenty
Wykład 11: Dane jakościowe. Rozkład χ 2. Test zgodności chi-kwadrat

Rozkłady dwuwymiarowe. Tablice dwudzielcze. Przykład (wstępny):

Badanie zależności zmiennych kolumnowej i wierszowej:

Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny?

Wykład 12: Tablice wielodzielcze

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

a) Zapisz genotyp tego mężczyzny... oraz zaznacz poniżej (A, B, C lub D), jaki procent gamet tego mężczyzny będzie miało genotyp ax b.

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Prawdopodobieństwo i statystyka

Zadania do cz. I. ggoralski.com. Autor: Grzegorz Góralski. środa, 9 listopada 11

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Wykład 3 Hipotezy statystyczne

STATYSTYKA MATEMATYCZNA

Testowanie hipotez statystycznych.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych.

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Statystyka matematyczna Test χ 2. Wrocław, r

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Wydział Matematyki. Testy zgodności. Wykład 03

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Testowanie hipotez statystycznych.

Wykład 12 Testowanie hipotez dla współczynnika korelacji

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Pytanie: Kiedy do testowania hipotezy stosujemy test F (Fishera-Snedecora)?

Prawdopodobieństwo i statystyka r.

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

PODSTAWY GENETYKI. Prowadzący wykład: prof. dr hab. Jarosław Burczyk

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść II

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Kolokwium ze statystyki matematycznej

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Wykład 10 Testy jednorodności rozkładów

Wykład 9 Testy rangowe w problemie dwóch prób

Testowanie hipotez statystycznych.

Statystyka matematyczna dla leśników

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testy zgodności. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 11

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

166 Wstęp do statystyki matematycznej

PDF created with FinePrint pdffactory Pro trial version

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Hipotezy statystyczne

Wykład 9 Wnioskowanie o średnich

Hipotezy statystyczne

Statystyka Matematyczna Anna Janicka

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Prawdopodobeństwo, test χ 2

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

GENETYKA POPULACJI. Ćwiczenia 4 Biologia I MGR

Wykład 8 Dane kategoryczne

Statystyka w analizie i planowaniu eksperymentu

Przykłady bloków: Przykład. Przyporządkowanie. Wykład 9 Zrandomizowany plan blokowy

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Uwaga! Test studenta dla pojedynczej próby, niekierunkowy. Wykład 9: Testy Studenta. Test Studenta dla jednej próby, kierunkowy

STATYSTYKA MATEMATYCZNA

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA MATEMATYCZNA

Analiza wariancji. dr Janusz Górczyński

Metabolizm i biochemia

Elementy statystyki STA - Wykład 5

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Weryfikacja hipotez statystycznych

Statystyka matematyczna i ekonometria

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Statystyka matematyczna i ekonometria

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Testowanie hipotez statystycznych

Zadanie Punkty Ocena

Prawdopodobieństwo i rozkład normalny cd.

STATYSTYKA

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

POLITECHNIKA WARSZAWSKA

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

Statystyka Matematyczna Anna Janicka

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

Testowanie hipotez statystycznych cd.

Transkrypt:

Wykład 14 Test chi-kwadrat zgodności Obserwacje klasyfikujemy do jakościowych klas Zliczamy liczbę obserwacji w każdej klasie Jeżeli są tylko dwie klasy, to liczba obserwacji w pierszej klasie ma rozkład Jeżeli mamy więcej niż dwie klasy, Możemy się skoncentrować na jednej klasie - rozkład Albo możemy rozważać wszystkie klasy na raz Przypomnienie: p (nieznane) p-stwo sukcesu np. bycia w klasie 1 n liczba obserwacji. Obserwujemy y = # obserwacji w klasie 1. ˆp = y ma rozkład, Jeżeli np i n(1-p) są dość duże to rozkład ten możemy aproksymować rozkładem Rozkład 2 Niech y 1, y k będą niezależnymi zmiennymi losowymi o rozkładzie N(0,1). Suma kwadratów tych zmiennych ma rozkład 2 k (rozkład chikwadrat z k stopniami swobody). 1

Test zgodności chi-kwadrat Rozważymy przypadek danych jakościowych Mamy próbę składającą się z n niezależnych obserwacji Będziemy testowali hipotezę o p-stwach należenia do poszczególnych klas Do obliczania wartości krytycznych skorzystamy z przybliżenia, które działa dla dużych rozmiarów prób. Liczymy oczekiwaną liczbę obserwacji w każdej klasie: n p i (p i założone p-stwo ``bycia w i-tej klasie) Test możemy stosować gdy oczekiwana liczba obserwacji w każdej z klas jest niemniejsza niż 5. Test jest w założeniu podobny do testu znaków ale nie wykorzystuje rozkładu dwumianowego. Prosty przypadek: dwie klasy Np. samiec/samica, tak/nie, sukces/porażka, poprawa/pogorszenie, itd. Badamy model genetyczny dziedziczenia pewnej cechy. Mamy dwie linie homozygotyczne muszki Drosophila, jedną z czerwonymi oczami i jedną z fioletowymi oczami. Sugeruje się, że za kolor oczu odpowiedzialny jest tylko jeden gen i że allel oczu czerwonych dominuje nad allelem oczu fioletowych. Jeżeli założona hipoteza jest prawdziwa to w krzyżówce F2 stosunek liczby muszek z czerwonymi oczami do liczby muszek z fioletowymi oczami powinien być w przybliżeniu równy Aby zweryfikować tę hipotezę wyhodowano 43 muszki z populacji F2 (wykorzystując kilku rodziców z linii homozygotycznych). 29 z tych muszek miało czerwone oczy a 14 fioletowe oczy. 2

Klasy: Czerwone oczy; hipotetyczne p-stwo p = oczekiwana liczba: E1 = Fioletowe oczy; hipotetyczne p-stwo p = Oczekiwana liczba: E2 = Czy allel czerwonych oczu dominuje nad allelem fioletowych oczu? Niech p będzie p-stwem, że muszka w populacji F2 ma czerwone oczy H 0 : p = ; H A : Użyjemy testu zgodności chi-kwadrat 2 s = (O-E) 2 /E przy H0 ma w przybliżeniu rozkład chi-kwadrat z df = p #klas - 1 =. Testujemy na poziomie = 0.05 ; Wartość krytyczna= pˆ = 3

2 s = (zaobserwowana - oczekiwana) 2 / oczekiwana = (O-E) 2 /E = Wniosek: Możemy także testować przeciwko alternatywie kierunkowej np. p < 0.75. W tym przypadku odrzucamy H0 gdy OBA poniższe warunki sa spełnione: X 2 s pˆ > 2 1(2 ), tzn. < 0.75 (tzn estymator odchyla się od hipotetycznej wartości w tym samym kierunku co H A ) Więcej niż 2 klasy U słodkiego groszku allel fioletowego koloru kwiatów (F) jest dominujący nad allelem czerwonego koloru (C) a allel wydłużonych ziaren pyłku (d) jest dominujący nad allelem okrągłych ziaren (o). Mamy P1 rodziców homozygotycznych z allelami dominującymi (FFdd) i P2 rodziców homozygotycznych z allelami recesywnymi (CCoo). W generacji F1 wszystkie groszki mają genotypy ( ) i mają Groszki z populacji F1 krzyżujemy i dostajemy populację F2. Przypuszcza się, że geny kontrolujące obie cechy są odległe o 20 cm. Jeżeli jest to prawdą to w populacji F2 poszczególne fenotypy powinny występować w proporcjach 67.44:7.56:7.56:17.44 67.44% fioletowe/wydłużone FFdd albo FCdd albo FFdo albo FCdo, [( 2-2 +3)/4] 7.56% fioletowe/okrągłe : FFoo albo FCoo, [(2-2 )/4] 7.56% czerwone/wydłużone = CCdd albo CCLdo, [(2-2 )/4] 17.44% czerwone/okrągłe = CCoo, [(1- ) 2 /4], Gdzie =0.1648 (p-stwo rekombinacji). Wyhodowano 381 osobników z populacji F2 i zaobserwowano 284 fioletowe/wydłużone 21 fioletowe/okrągłe 21 czerwone/wydłużone 55 czerwone/okrągłe 4

Czy geny są w odległości 20 cm? Niech p 1, p 2, p 3, p 4 będą p-stwami odpowiednio fioletowe/wydłużone, fioletowe/okragłe, czerwone/wydłużone, czerwone/okrągłe w populacji F2. H 0 : p 1 =0.6744, p 2 = 0.0756, p 3 =0.0756, p 4 =0.1744 ; p-stwa poszczególnych klas odpowiadają odległości 20 cm. H A : p-stwa klas nie odpowiadają odległości 20 cm. Użyjemy testu chi-kwadrat, df = #klas - 1 = 2 s = (O-E) 2 /E ma przy H 0 rozkład Testujemy na poziomie = 0.05; Wartość krytyczna = Wartości oczekiwane liczby obserwacji w każdej klasie przy H 0 (n p i ): 2 s = Wniosek: Podsumowanie testu chi-kwadrat zgodności Definiujemy p i dla każdej klasy i formułujemy hipotezę. Jeżeli są tylko dwie klasy to alternatywę można łatwo opisać za pomocą wzoru, może ona też być kierunkowa. 5

Jeżeli mamy więcej niż dwie klasy alternatywę należy opisać słowami. Dla każdej klasy liczymy E i = np i. Sprawdzamy czy wszystkie E i są nie mniejsze niż 5. (Jeżeli nie to nie można stosować testu chi-kwadrat) Liczymy 2 s = (O-E) 2 /E sumując po wszystkich klasach. Porównujemy z wartością krytyczną z rozkładu 2 k-1; odrzucamy H 0 gdy statystyka jest większa od wartości krytycznej. 6