Wykład 9: Testy Studenta Jest kilka typów testów Studenta. Mają podobną strukturę, ale służą do testowania różnych hipotez i różnią się nieco postacią statystyki testowej. Trzy podstawowe typy testów Studenta to : Test dla jednej próby, dla dwóch niezależnych prób i dla dwóch prób zależnych. Każdy z tych testów może być kierunkowy (alternatywa jednostronna) lub niekierunkowy (alternatywa dwustronna). Test studenta dla pojedynczej próby, niekierunkowy Przykład 1 (fikcyjny): Czy średnia prędkość aut na ulicy Mickiewicza jest równa 50 km/h? Zmierzono prędkość 32 aut: n 32 Prędkość aut w km/h średnia 66 s 5.5 Test Studenta dla jednej próby, kierunkowy Bardziej interesujące pytanie: Czy średnia prędkość aut jest większa od 50 km/h? Uwaga! Decyzja o rodzaju hipotezy alternatywnej (kierunkowa lub nie) powinna być podjęta zanim spojrzymy na dane liczbowe zebrane dla jej weryfikacji. Może być natomiast podjęta na podstawie innych, np. historycznych danych lub na podstawie profilu zainteresowań, ogólnych oczekiwań itp. Test studenta dla pojedynczej próby, też kierunkowy Czy średnia prędkość aut na ulicy Mickiewicza jest mniejsza niż 50 km/h? 1
Test Studenta dla dwóch niezależnych prób, niekierunkowy Badacze chcą stwierdzić, czy obecność pewnego enzymu (G6PD) jest związana z rozwojem artretyzmu (RA). Aby to zbadać, wybrano losowo pacjentów chorych na artretyzm i utworzono grupę kontrolną z 17 zdrowych dorosłych. U każdej z badanych osób zmierzono poziom G6PD we krwi. Wyniki podano w jednostkach/gram Hgb (Hgb=hemoglobina). Poziom G6PD średnia SD RA 17.8 3.2 Grupa kontrolna 12.3 2.84 Zakładając, że poziom G6PD w badanych populacjach ma w przybliżeniu rozkład normalny porównaj średnie poziomy G6PD u osób chorych na artretyzm i u osób zdrowych używając odpowiedniego testu Studenta. Rozwiązanie Pytanie naukowe: Czy średni poziom enzymu G6PD u osób chorych na artretyzm jest taki sam jak u zdrowych osób? Oznaczenia: µ 1 średni poziom G6PD u osób chorych na artretyzm µ 2 średni poziom G6PD u zdrowych osób Test Studenta dla dwóch niezależnych prób, kierunkowy Lekarstwo uśmierzające ból zostało przetestowane na grupie 50 kobiet cierpiących na bóle poporodowe. 25 losowo wybranych kobiet dostało lekarstwo, a pozostałych 25 placebo. Dla każdej kobiety wyliczono wskaźnik uśmierzenia bólu w oparciu o wynik cogodzinnego wywiadu. Zakres zmienności tego wskaźnika był pomiędzy 0 (ból bez zmian) do 56 (całkowite uśmierzenie bólu na 8 godzin). Wyniki badań zawarte są w poniższej tabeli. Zakładając, że wskaźnik uśmierzenia bólu ma w obu populacjach rozkład normalny zweryfikuj hipotezę o przydatności badanego lekarstwa. Wskaźnik uśmierzenia bólu n średnia SD placebo 25 25.32 12. lekarstwo 25 31.96.78 Pytanie: Czy lekarstwo redukuje ból bardziej efektywnie niż placebo? 2
P-wartość: wprowadzenie Przed przystąpieniem do testowania należy wybrać poziom istotności α. Odrzucamy H 0 gdy statystyka testowa jest istotna, tzn. znajdzie się w obszarze odrzuceń. Ten obszar to zbiór wartości w ogonie/ogonach rozkładu Studenta taki, że całka z gęstości rozkładu Studenta po tym zbiorze wynosi α. Nieco paradoksalnie, może się zdarzyć, że hipoteza odrzucona na poziomie istotności α =0. nie będzie odrzucona, jeżeli użyjemy α = 0.01. Przykład: Stosujemy dwustronny test Studenta z 18 df na poziomie istotności α = 0.. Wart. kryt. = 2.101. Statystyka testowa wyliczona w oparciu o dane wynosi ts = 2.3. Wniosek:... Patrycja woli użyć α = 0.01. Wart. kryt,.= 2.878. Patrycja użyła tych samych danych, więc ts =... Jak uzgodnić wynik testowania z kimś, kto użył innej wartości α? P-wartość: cd. Czego potrzeba, aby podjąć decyzję? Tablicy rozkładu Studenta, aby ustalić wartość krytyczną (niezależne od danych). Wartości statystyki testowej ts (zależne od danych). Czy Patrycja mogłaby uniknąć wyszukiwania nowej wartości krytycznej? Tak. Wystarczy podać jej tzw. P-wartość dla naszej statystyki/danych. Znajomość P-wartości umożliwia podjęcie decyzji przy każdym poziomie istotności α bez wyszukiwania wartości krytycznych. P-wartość: definicja. P-wartość to prawdopodobieństwo, że przy prawdziwej hipotezie zerowej wartość statystyki przyjmie wartość bardziej ekstremalną, niż zaobserwowana w badanej próbie. Dla dwustronnego testu Studenta P-wartość to całka z gęstości rozkładu Studenta na prawo od + ts i na lewo od - ts. Dla testów jednostronnych P-wartość to całka po jednej stronie zaobserwowanej statystyki w kierunku wyspecyfikowanym przez alternatywę: Przy H A : µ 1 > µ 2, P-wartość to całka na prawo od ts. Przy H A : µ 1 < µ 2, P-wartość to całka na lewo od ts. Przykład, cd. Przy 18 df i ts = 2.3, P-wartość dla testu dwustronnego wynosi 0.4. Jest to całka z gęstości rozkładu Studenta na prawo od +2.3 i na lewo od -2.3. Jak używamy P-wartości: Porównujemy ją z α: Gdy P-wartość < α, to... Gdy P-wartość > α, to... Tak więc mówimy Patrycji, że P-wartość wynosi 0.4 i ona wie od razu, że na poziomie istotności α = 0.01... A my wiemy, że na poziomie istotności α = 0.... P-wartość warto podać razem z wynikiem testu. Na przykład: To badanie na poziomie istotności 0. potwierdza (P-wartość=0.4), że... 3
1 2 Szacowanie P-wartości P-wartość można obliczyć przy pomocy komputera, korzystając z dystrybuanty rozkładu Studenta. P-wartość można także oszacować (w przybliżeniu) korzystając z tablic rozkładu Studenta. W tym wypadku należy znaleźć wartości krytyczne sąsiadujące z zaobserwowaną wartością statystyki. Szukana P-wartość leży pomiędzy poziomami istotności odpowiadającymi tym wartościom krytycznym. Kontynuacja przykładu Oszacuj p-wartość dla dwustronnego testu Studenta, jeżeli wartość statystyki testowej wynosi 2.3 a liczba stopni swobody df=18. Testy Studenta Jedna Próba Hipotez a Zerowa H 0 µ = µ 0 H A µ µ 0 Hipoteza alternatywna dwustronne Obszar Kryt. t s <- t α/2 ts > t α/2 jednostronne H A µ < µ 0 µ > µ 0 Obszar Kryt. t s <- t α t s > t α df n-1 t s (1-α) PU y µ dla µ: 0 y ± t α/2 SE y SE y Dwie Niezależne Próby µ 1 = µ 2 µ 1 µ 2 t s <- t α/2 ts > t α/2 µ 1 < µ 2 µ 1 > µ 2 t s < -t α t s > t α n 1 +n 2-2 albo podany wzór y1 y dla µ 2 1 -µ 2 : y SE 1 y 2 ± d t α/2 SE y1- y2 Dwie Zależne Próby µ 1 = µ 2 µ 1 µ 2 t s < t α/2 ts > t α/2 µ 1 < µ 2 µ 1 > µ 2 t s <-t α t s > t α n d 1 1 y2 y SE1 y y2 y SE d dla µ 1 -µ 2 : y 1 y 2 ± t α/2 SE d Moc Moc zależy od: Moc testu to prawdopodobieństwo odrzucenia H 0, gdy prawdziwa jest H A Moc=czułość testu Moc = 1 Pr (nie odrzucamy H 0, gdy prawdziwa jest H A ) = 1 Pr(błąd II-go rodzaju) = 1-β Na ogół chcemy, aby test miał dużą moc 4
Wielkość efektu Moc jednostronnego testu Studenta dla µ1 = µ2 na poziomie istotności α=.01 Wielkość efektu = sygnał / szum = (µ 1 -µ 2 )/σ; W tabelach dana moc jednostronnego testu Studenta dla dwóch niezależnych prób na poziomie istotności α=0.01 w funkcji rozmiaru próby i wielkości efektu. Przykład: Aby mieć 90% pewności, że jednostronny test Studenta na poziomie istotności α=0.01 wykryje różnicę między średnimi równą 0. 8σ musimy pobrać próby o rozmiarze n 1 =n 2 = Aby oszacować σ, często wykonuje się badania wstępne. n 8 9 10 11 12 16 17 18 20 21 dc 1.31 1.22 1. 1. 1..98.94.90.87.84.81.79.77.75.10.20.30 06 06 06.40 06 09 10 10 11 12 d.50 09 10 11 12 16 18 20 21 22.60 12 17 20 22 24 26 27 29 30 32.70 16 18 21 23 26 28 31 34 36 38 40 42 44.80 22 25 28 31 34 38 41 44 47 49 51 54 56 1.00 30 35 40 45 49 53 57 61 64 68 71 74 76 79 1.20 43 49 55 61 66 71 75 79 82 85 87 89 91 93 1.40 57 63 70 76 81 85 88 90 92 94 95 96 97 98 22.73 23 34 46 59 81 94 98 23.71 09 24 36 48 61 83 95 24.70 09 16 25 37 50 64 85 95 Moc jednostronnego testu Studenta dla µ1 = µ2 na poziomie istotności α =.01 d n dc.10.20.30.40.50.60.70.80 1.00 1.20 1.40 25.68 10 17 27 39 53 66 87 96 26.67 10 17 28 41 55 68 89 97 27.65 10 18 29 42 57 70 90 97 * 28.64 11 30 44 59 72 91 98 29.63 06 11 31 46 60 74 92 98 30.62 06 11 20 32 48 62 75 93 31.61 06 12 21 34 50 64 77 94 32.60 06 12 22 35 51 66 79 94 33.59 06 22 36 52 67 80 95 34.58 06 23 37 53 69 81 95 35.57 24 38 55 70 83 96 * 36.56 25 40 56 72 84 96 37.55 26 41 58 73 85 97 38.55 26 42 60 75 86 97 39.54 27 43 61 76 87 98 40.53 28 45 62 78 88 98 42.52 16 30 47 64 80 90 98 Test Wilcoxona-Manna-Whitneya Test Studenta wymaga normalności rozkładów w obu populacjach. Jak porównać dwie populacje, w których rozkład cechy nie jest normalny, a rozmiar prób nie jest na tyle duży, aby korzystać z CTG. Test Manna-Whitneya nie wymaga założenia o normalności. 44.51 17 31 49 67 82 91 46.49 18 33 51 69 83 93 48.48 34 53 71 85 94 Procedura: H 0 : w obu populacjach badana cecha ma ten sam rozkład H A : badana cecha ma inny rozkład w obu populacjach Test wykrywa głównie różnicę w parametrze położenia (np. rozkłady mają różne mediany) Test nieczuły na różnice w parametrach rozrzutu. Łączymy obie próby otrzymując zbiór n 1 +n 2 liczb. Porządkujemy otrzymany zbiór: Rangę 1 przypisujemy wartości najmniejszej, Rangę 2 kolejnej itd. Dla każdej próby obliczamy sumę rang wartości pochodzących z tej próby. Otrzymujemy liczby R1 i R2. Statystyka testowa to R=min(R1,R2). 5
Przykład Zliczamy liczbę ziaren produkowanych przez dwie odmiany pewnej rośliny. Dane: Odmiana 1:, 23, 25, 28, 28, 34 (n1 = 6) Odmiana 2:, 18,, 20, 25 (n2 = 5) Test: Czy obie odmiany produkują przeciętnie tyle samo ziaren? H 0 : Obie odmiany mają ten sam rozkład liczby ziaren H A :Rozkład liczby ziaren u odmiany 2 jest inny niż u odmiany 1 Użyjemy testu Manna-Whitneya. Tablice wartości krytycznych są zamieszczone w internecie razem z wykładami (źródło:http://fsweb.berry.edu/academic/educati on/vbissonnette/tables/wilcox_r.pdf ) Planowanie eksperymentu Rodzaje badań: Badania obserwacyjne Badania eksperymentalne Badania obserwacyjne Przykłady: Poziom rtęci u ryb z różnych jezior Poziom cholesterolu u wegetarian i ``mięsożerców Czy waga noworodków zależy od tego czy matka nadużywała alkoholu? Zbieramy informacje o istniejącej sytuacji Brak kontroli nad poziomem czynnika wpływu Dużo nieznanych powiązań. Może się zdarzyć, że faktycznie będziemy mierzyć wpływ innego, powiązanego czynnika. Niepewne wnioski naukowe. Badania eksperymentalne: Przykłady Obserwujemy stan pacjentów biorących lekarstwo i placebo Stosujemy cztery różne nawozy i mierzymy wydajność Stosujemy różne ilości dodatku do paszy dla świń i mierzymy przyrost wagi Wpływamy na sytuację i mierzymy wynik. Mamy kontrolę nad jednym lub kilkoma czynnikami (choć niekoniecznie nad wszystkimi). Bardziej wiarygodne wnioski naukowe 6
Badania eksperymentalne cd. Zmienna zależna/objaśniana (odpowiedź): efekt, który mierzymy Zmienna niezależna/objaśniająca: czynniki, które kontrolujemy, np. rodzaj lekarstwa Zmienne zakłócające: czynniki, nad którymi nie mamy kontroli, np. waga pacjenta Przypisanie decyzja, jaki poziom czynnika zastosujemy u każdego pacjenta. Eksperyment zrandomizowany Najbardziej oczywista metoda przypisania Musimy znać: Liczbę czynników Możliwe poziomy każdego czynnika Zadaną kombinację poziomów czynników będziemy nazywali ``zabiegiem Eksperyment zrandomizowany, cd. Wnioski wyciągamy zakładając losowe próbkowanie z populacji (próba losowa) Próbę rozdzielamy losowo na części, które oddane zostaną różnym zabiegom. Przykład 1 testowanie lekarstwa 500 pacjentek zgodziło się na przetestowanie nowego lekarstwa na raka piersi Ta próba reprezentuje populację kobiet z rakiem piersi, po zabiegu Dzielimy tę próbę LOSOWO na dwie, np. równe, grupy (po 250 osób) Można użyć tablicy liczb pseudolosowych Przykład 1 cd. Jedna grupa dostaje lekarstwo, a druga placebo W okresie 5-lat obserwujemy częstość nawrotu raka w obu grupach Jeżeli zaobserwujemy istotną różnicę w częstościach, to z dużą pewnością będziemy mogli twierdzić, że jest to wpływ lekarstwa Przykład 2: Różne dawki Jeden czynnik, ale na kilku poziomach Lekarstwo w dawkach 0, 10, 20, 30, 40 mg Dzielimy pacjentki LOSOWO na 5 grup (niekoniecznie równe rozmiary) 7
Przykład 3: Trzy czynniki Cztery różne lekarstwa Dwa różne zabiegi chirurgiczne Naświetlania lub nie 4 x 2 x 2 = 16 możliwych ``zabiegów Dzielimy 500 losowo na 16 grup zabiegowych, niekoniecznie równych rozmiarów Im więcej czynników, tym liczniejsza powinna być próba 8