Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny? Gdy: badana cecha jest mierzalna (tzn. posiada rozkład ciągły); badana cecha posiada rozkład normalny; dysponujemy pojedynczym wynikiem; dysponujemy parametrami (μ i σ) rozkładu cechy w badanej populacji;
Powrót do testowania monety: Rzucono monetą 50 tys. razy. Wyrzucono 24750 orłów i 25250 reszek. Czy na podstawie tego wyniku można powiedzieć, że moneta jest krzywa?
Przybliżenie rozkładu dwumianowego rozkładem normalnym. Dla prób o dużej liczebności (najlepiej n>100) rozkład dwumianowy można przybliżyć rozkładem normalnym o parametrach: gdzie: n p q= 1 p Zatem: P N p, p q n - liczebność próby - prawdopodobieństwo sukcesu - prawdopodobieństwo porażki = p = p q n
Powrót do testowania monety: Rzucono monetą 50 tys. razy. Wyrzucono 24750 orłów i 25250 reszek. Czy na podstawie tego wyniku można powiedzieć, że moneta jest krzywa? Hipoteza H 0 : p = 0,5 Hipoteza H A : p 0,5 = p 0 = p 0 q 0 n =0,5 = 0,5 0,5 50000 =0,00224 Dla poziomu istotności α = 0,05 wartość krytyczna z kr = ±1,96. Zatem przedział ufności to: PU = p 0 ±1,96 =0,5±1,96 0,00224 PU 0,4956 ;0,5044
Powrót do testowania monety: Rzucono monetą 50 tys. razy. Wyrzucono 24750 orłów i 25250 reszek. Czy na podstawie tego wyniku można powiedzieć, że moneta jest krzywa? PU = p 0 ±1,96 =0,5±1,96 0,00224 PU 0,4956 ;0,5044 W naszym przypadku: p= 24750 50000 =0,495 Wartość p znajduje się w obszarze krytycznym. Zatem na poziomie istotności α = 0,05 można powiedzieć, że moneta jest krzywa.
Powrót do testowania monety: Rzucono monetą 50 tys. razy. Wyrzucono 24750 orłów i 25250 reszek. Czy na podstawie tego wyniku można powiedzieć, że moneta jest krzywa? Inny sposób: standaryzujemy wartość p: W naszym przypadku: z= p p 0 p 0 q 0 n Zatem odrzucamy hipotezę H 0. z= 0,495 0,5 0,00224 = 2,2 z =0,05 =±1,96
Zadanie W pewnym liceum ogólnokształcącym doliczono się 234 dziewczyny oraz 212 chłopców. Czy można powiedzieć, że proporcja płci odbiega od stosunku 1:1?
Zadanie W pewnym liceum ogólnokształcącym doliczono się 234 dziewczyny oraz 212 chłopców. Czy można powiedzieć, że proporcja płci odbiega od stosunku 1:1? p prawdopodobieństwo sukcesu (znalezienia dziewczyny) Hipoteza H 0 : p = 0,5 Hipoteza H A : p 0,5 n=234 212=446 x= p d = 234 446 =0,525 = 0,5 0,5 =0,024 446 z =0,05 =1,96 z= x = 0,525 0,5 0,024 Proporcja pomiędzy płciami nie jest zaburzona. =1,06
Pytanie: Kiedy do testowania hipotezy stosujemy przybliżenie rozkładu dwumianowego do rozkładu normalnego? Gdy: badana cecha jest niemierzalna i może przyjąć dwie możliwe wartości (np. płeć męska lub żeńska); dysponujemy pojedynczą próbą, w której określono proporcję obydwu wartości, jakie może przyjmować cecha; dysponujemy rozkładem teoretycznym; próba jest duża (przynajmniej 30, najlepiej powyżej 100).
Zadanie domowe: Czy w śród studentów I roku Biotechnologii UWr jest zaburzona proporcja pomiędzy płcią żeńską i męską?
Zadanie W pewnym laboratorium przygotowano dwie wersje szczepionki przeciwko patogennym szczepom E. coli atakującym kurczaki i powodującym duże straty na fermach drobiu. W tym celu przygotowano dwie grupy kurczaków w liczbie 51 i 49, które zaszczepiono odpowiednio wariantem 1 i 2 otrzymanych szczepionek. Następnie kurczaki zakażono bakteriami. W pierwszej grupie zakażenie przeżyły 44 kurczaki a w grupie drugiej 37 kurczaków. Czy istnieje istotna statystycznie różnica w skuteczności obydwu szczepionek?
Test istotności różnicy frakcji. Przy założeniu, że hipoteza, tzn. H 0 : wówczas zmienna losowa Z: gdzie: n 1, n 2 a,b p 1, p 2 Z= p 1 p 1 p 2 p n 1 p 1 = a n 1 ; p 2 = b n 2 ; p= n 1 p 1 n 2 p 2 n 1 n 2 p 1 p n 2 - liczebność prób - liczba sukcesów - prawdopodobieństwo sukcesów = a b n 1 n 2 p 1 p 2 =0 ma rozkład asymptotycznie normalny N(0,1)., jest prawdziwa
Zadanie W pewnym laboratorium przygotowano dwie wersje szczepionki przeciwko patogennym szczepom E. coli atakującym kurczaki i powodującym duże straty na fermach drobiu. W tym celu przygotowano dwie grupy kurczaków w liczbie 51 i 49, które zaszczepiono odpowiednio wariantem 1 i 2 otrzymanych szczepionek. Następnie kurczaki zakażono bakteriami. W pierwszej grupie zakażenie przeżyły 44 kurczaki a w grupie drugiej 37 kurczaków. Czy istnieje istotna statystycznie różnica w skuteczności obydwu szczepionek? p 1 = a n 1 = 44 51 =0,863 p 2 = b n 2 = 37 49 =0,755 p= 44 37 51 49 =0,81 z d = 0,862 0,755 0,81 0,19 0,81 0,19 51 49 z =0,05 =1,96 =1,37 Zaobserwowane różnice nie są istotne statystycznie.
Zadanie Testowano dwa leki przeciwko bólowi głowy. W tym celu 150 osób zgłaszających ból głowy podzielono na dwie grupy po 75 osób. Jednej grupie podano lek A, zaś drugiej grupie lek B. Po godzinie stwierdzono, że ból głowy ustąpił u 38 osób, które otrzymały lek A oraz u 56 osób, które otrzymały lek B. Czy obydwa leki różnią się skutecznością? Hipoteza H 0 : Hipoteza H A : p 1 p 2 =0 p 1 p 2 0 p 1 = a n 1 = 38 75 =0,507 p 2 = b n 2 = 56 75 =0,747 p= 38 56 75 75 =0,627 z d = 0,507 0,747 0,627 0,373 0,627 0,373 75 75 z =0,05 = 1,96 = 0,240 0,080 = 3,00 Odrzucamy hipotezę H 0. Leki różnią się skutecznością. Lek B posiada szersze spektrum działania.
Pytanie: Kiedy do testowania hipotezy stosujemy test istotności różnicy frakcji? Gdy: badana cecha jest niemierzalna i może przyjąć dwie możliwe wartości (np. kurczak żywy lub martwy); Badana cecha jest mierzalna lub policzalna i uzyskane wyniki można podzielić na dwie kategorie; dysponujemy dwiema próbami, w których określono proporcje obydwu wartości, jakie może przyjmować cecha; próby są duże (przynajmniej 30). W przypadku prawdopodobieństwa sukcesu p w pojedynczym zdarzeniu znacznie odbiegającego od 0,5 próba powinna wynosić przynajmniej 100. w przypadku małolicznych prób (mniej niż 30 przypadków) powinno się stosować test dokładny Fishera lub test niezależności χ 2 z poprawką Jatesa.
Zadanie Rzucając kostką do gry 180 razy uzyskano następujące wyniki: Liczba oczek 1 2 3 4 5 6 Liczność ni 24 29 40 25 35 27 Czy kostka wyrzuca poszczególne liczby oczek z równym prawdopodobieństwem?
Aby rozwiązać zadanie należy zastosować test zgodności chi-kwadrat (ch^2, χ 2 ). Test ten służy do weryfikacji hipotezy, że obserwowana cecha w próbie (populacji) ma założony przez eksperymentatora rozkład. Statystyką testu jest wyrażenie: gdzie: n i np i n= n i k k 2 d = i=1 n i np i 2 np i - wartość doświadczalna (obserwowana) w klasie i, - wartość teoretyczna (oczekiwana) w klasie i, - liczność próby, - liczba klas. Statystyka χ 2 zawiera się w przedziale (0, + ). Test chi-kwadrat jest testem jednostronnym. UWAGA: Liczność oczekiwana w każdej klasie nie może być mniejsza od 5. Jeżeli zaistnieje taki przypadek, że liczność pewnej klasy jest mniejsza od 5, to klasy sąsiednie należy połączyć tak, aby łączna częstość oczekiwana wynosiła co najmniej 5.
Rozkład chi-kwadtat (χ 2 ) Kiedy zmienna losowa X ma rozkład normalny N(μ,σ) o nieznanych parametrach μ i σ, to przy założeniu prawdziwości hipotezy H 0 : 2 2 = 0 funkcja ns 2 /σ 2 ma rozkład χ 2 z df=k-1 stopniami swobody. Symbol ns 2 oznacza sumę kwadratów odchyleń indywidualnych wyników od średniej x próby. df=1 df=2 df=3 df=4 df=5 Należy podkreślić, że rozkład zmiennej zależy tylko od liczby stopni swobody, a nie zależy od średniej (μ) i odchylenia (σ). Jest on niesymetryczny dla małej liczby stopni swobody, natomiast w miarę wzrostu liczby stopni swobody staje się bardzie symetryczny dążąc do rozkładu normalnego o parametrach: N 2n 1,1
Zadanie Rzucając kostką do gry 180 razy uzyskano następujące wyniki: Liczba oczek 1 2 3 4 5 6 Liczność ni 24 29 40 25 35 27 Czy kostka wyrzuca poszczególne liczby oczek z równym prawdopodobieństwem? Stawiamy hipotezy: Hipoteza H 0 : p 1 = p 2 = p 3 = p 4 = p 5 = p 6, p i =1/6 Hipoteza H A : p 1 p 2 p 3 p 4 p 5 p 6, p i 1/6 Szukamy wartości teoretycznych np i : np i =180 1/6=30 Liczba oczek 1 2 3 4 5 6 Częstości obserwowane ni 24 29 40 25 35 27 Częstości teoretyczne npi 30 30 30 30 30 30
Liczba oczek 1 2 3 4 5 6 Częstości obserwowane ni 24 29 40 25 35 27 Częstości teoretyczne npi 30 30 30 30 30 30 Liczymy statystykę χ d2 : k 2 d = i=1 n i np i 2 np i d 2 = 24 30 2 30 29 30 2 30 40 30 2 30 25 30 2 30 35 30 2 30 27 30 2 =6,53 30 Wartość krytyczna χ 2 dla α = 0,05 i df = 5 stopni swobody wynosi: 2 =0,05 =11,07 Zatem hipotezy H 0 nie możemy odrzucić: kostka jest prawidłowa na poziomie istotności α = 0,05.
Zadanie W populacji wilków zamieszkujących Bieszczady występują dwa allele pewnego genu H. Częstość allelu H 1 wynosi 0,7, natomiast częstość allelu H 2 wynosi 0,3. Przebadano 158 osobników i stwierdzono obecność 60 homozygot H 1 /H 1, 2 homozygoty H 2 /H 2 oraz 96 heterozygot H 1 /H 2. Czy zaobserwowany rozkład homo- i heterozygot odpowiada rozkładowi teoretycznemu? Rozkład teoretyczny jest dany wzorem: gdzie p i q to częstości alleli H 1 i H 2. Liczymy liczebności teoretyczne: p 2 2 p q q 2 =1 p q=1 H 1 / H 1 : 0,7 2 158=77,42 H 2 / H 2 : 0,3 2 158=14,22 H 1 / H 2 : 2 0,7 0,3 158=66,36 Rodzaj osobników H1/H1 H2/H2 H1/H2 Częstości obserwowane ni 60 2 96 Częstości teoretyczne npi 77,42 14,22 66,36
Zadanie W populacji wilków zamieszkujących Bieszczady występują dwa allele pewnego genu H. Częstość allelu H 1 wynosi 0,7, natomiast częstość allelu H 2 wynosi 0,3. Przebadano 158 osobników i stwierdzono obecność 60 homozygot H 1 /H 1, 2 homozygoty H 2 /H 2 oraz 96 heterozygot H 1 /H 2. Czy zaobserwowany rozkład homo- i heterozygot odpowiada rozkładowi teoretycznemu? Rodzaj osobników H1/H1 H2/H2 H1/H2 Częstości obserwowane ni 60 2 96 Częstości teoretyczne npi 77,42 14,22 66,36 Liczymy statystykę χ d2 : d 2 = 60 77,42 2 77,42 2 14,22 2 14,22 96 66,36 2 66,36 =27,66 Wartość krytyczna χ 2 dla α = 0,05 i df = 2 stopni swobody wynosi: 2 =0,05 =5,99 Zatem hipotezę H 0 odrzucamy (p-value<0,001): zaobserwowany rozkład nie jest zgodny z rozkładem teoretycznym.
Pytanie: Kiedy do testowania hipotezy stosujemy test zgodności χ 2? Gdy: badana cecha jest niemierzalna i może przyjąć więcej niż dwie możliwe wartości (np. liczba oczek na kostce do gry); badana cecha jest policzalna lub mierzalna, a uzyskane wyniki możemy podzielić na kilka kategorii; potrafimy wskazać wartości teoretyczne; Ograniczenia: liczebność teoretyczna każdej kategorii/grupy powinna wynosić minimum 5 obserwacji. Gdy ten warunek nie jest spełniony należy połączyć część kategorii ze sobą.